Stable Diffusion seziert

KI-Systeme ermöglichen auch künstlerisch unbegabten Menschen, aus Texteingaben hochwertige Bilder zu generieren. iX erklärt, was Stable Diffusion im Innersten zusammenhält.

Von Dr. Gerhard Heinzerling

Mithilfe von KI-Bildgeneratoren ist es mittlerweile auch Laien möglich, Bilder zu erschaffen, die großen Kunstwerken ähneln. Auch Fotografie- und Kunstwettbewerbe lassen sich damit inzwischen gewinnen. Dieser Artikel stellt das generative KI-Modell Stable Diffusion vor, das aus Texteingaben Bilder generiert. Stable Diffusion ist ein Open-Source-Modell, das es in verschiedenen Varianten gibt. Hier wird auf eine Variante eingegangen, die mit der Python-Bibliothek Keras erstellt wurde. Keras kapselt allerdings das Innenleben des Modells, weshalb dieser Beitrag eine grafische Darstellung und eine Beschreibung der verschiedenen Funktionsblöcke bietet. Die URL zum Keras-Programm ist unter ix.de/z4uj verlinkt. Dort findet sich ein fertiges Beispiel, das zwar auf viele Keras-Funktionen zurückgreift, aber erlaubt, das Ganze einfach nachzuprogrammieren und die einzelnen Funktionen zu verstehen. Die Kurzform zeigt Abbildung 1. Benutzer können selbst mit einer einfachen CPU eigene Bilder generieren, indem sie in der Methode text_to_image individuelle Texteingaben vornehmen.

Mit der Implementation von Stable Diffusion in KerasCV lassen sich mit wenigen Befehlen bereits erste Bilder generieren (Abb. 1).

Wichtig ist, dass sich hier tatsächlich von Generieren sprechen lässt, da das Modell etwa nicht einfach im Internet nach einem Bild mit einem möglichst ähnlichen Schlagwort sucht. Es erstellt aus der Texteingabe tatsächlich ein neues Bild. Wie das genau funktioniert, erklärt dieser Artikel. Zunächst zeigt Abbildung 2, dass Stable Diffusion kein monolithischer Block ist, sondern aus mehreren Komponenten besteht.