Stable Diffusion XL feintunen

Eigenes Bildmaterial sorgt für viel größere Kontrolle über den Output, allerdings ist es völlig unverhältnismäßig, dafür ein eigenes Modell komplett neu zu trainieren. Minimalinvasiv klappt es mit dem Modell von Stable Diffusion XL, das man gezielt nachtrainieren kann.

Von Ramon Wartala

Bildgeneratoren, die Bilder aus Prompts erzeugen können – daher Text2Image-Modelle genannt – erfreuen sich nicht nur in den sozialen Medien großer Beliebtheit. Das eigene Konterfei in eine Barbie oder einen Ken zu verwandeln ist dank Diensten wie Bairbie.me oder Replicate längst für Centbeträge möglich. Im professionellen Umfeld hingegen geht es mittlerweile primär um die Kontrolle über die Bildausgabe der neuen Bilderzeugungstechnik. Denn in Anwendungsfeldern wie dem Marketing möchte man schließlich nicht irgendein Produktbild zeigen, das dem eigenen bloß ähnelt, sondern eines, das genau so aussieht wie das beworbene Produkt. Um das zu erreichen, kann man sich zurzeit noch nicht allein auf vortrainierte kommerzielle Modelle verlassen, so gut sie auch sein mögen. Man muss selbst Hand anlegen und das Modell feinjustieren – wofür sich Stability AIs Text2Image-Modell Stable Diffusion XL (SDXL) hervorragend eignet.

Seit Ende Juli ist Stable Diffusion XL 1.0 verfügbar. Im Gegensatz zu älteren Versionen besteht das Modell aus 3,5 Milliarden Parametern und kann Bilder bis zu einer Größe von 1024 × 1024 Pixeln erzeugen. Entwickler Stability AI hat das Modell auf GitHub als Open Source veröffentlicht, was dazu führte, dass die eigene Community in kurzer Zeit zahlreiche Blogartikel und YouTube-Videos zu SDXL veröffentlichte. Auch auf Portalen wie Civitai und Replicate entstanden viele Erweiterungen, die auf Basis verschiedener Motive und Stilrichtungen trainiert wurden.