c't 6/2023
S. 123
Wissen
KI-Generatoren für Musik

KI-Songs aus dem Labor

Künstliche Intelligenz improvisiert Musik auf Zuruf

Künftig sollen nicht mehr Musiker, Bands oder Spotify Ihre Musikwünsche erfüllen, sondern KIs. Riffusion und MusicLM zeigen den aktuellen Stand der Forschung – und wie weit der Weg zum Hit aus der Retorte noch ist.

Von Kai Schwirzke

Während die vier KI-Programme aus dem Test von Seite 118 lediglich gebrauchsfertige Hintergrundmusik liefern, tüfteln KI-Forscher in ihren Labors an cleveren Algorithmen mit größerem Repertoire und besserem Musikverständnis. Zunächst geht es den Entwicklern prinzipiell darum, dass eine KI auf kurze Textanweisungen hin ein neues Stück improvisiert und als Audiodatei abspielt. Die Klangqualität der Demos spielt für sie noch keine große Rolle.

Zwei populäre Ansätze sind Riffusion und MusicLM, das Google Ende Januar erstmals vorgestellt hat. Riffusion ist ein Hobbyprojekt der beiden Entwickler Seth Forsgren und Hayk Martiros. Es setzt auf der bekannten Bild-KI Stable Diffusion auf, die Textbeschreibungen (sogenannte Prompts, zum Beispiel „Astronaut auf einem Pferd“) in komplexe Bilder umsetzt.

Aus Rauschen gemeißelt

Dazu generiert Stable Diffusion stimmige Motive aus Rauschen. Zum Training verrauschten die Entwickler ein Originalbild sukzessive immer stärker und ließen es vom Deep-Learning-Algorithmus wieder in den Originalzustand versetzen. Dies wiederholten sie mit unzähligen beschrifteten Bildern aus dem Internet. Schließlich koppelten sie das Diffusionsmodell mit einem großen Sprachmodell, sodass die KI auf Textanweisung nahezu jedes beliebige Motiv aus Rauschen erzeugt.

Riffusion nutzt dieses Prinzip, um Spektrogramme für Musik aus Rauschen zu berechnen. Die Bilder zeigen auf der x-Achse den Zeitverlauf und auf der y-Achse die Frequenzverteilung. Bei der Wiedergabe wandelt die Software die gezeichneten Spektrogramme in Musik um.

Dazu trainierten die beiden Entwickler Riffusion mit den Spektrogrammen verschiedener freier Musiksammlungen mit zugehörigen Textbeschreibungen. So hat die Software gelernt, wie das Spektrogramm einer sanften Jazznummer mit Klavier und Kontrabass aussieht und wie es sich von dem eines Heavy-Metal-Gitarrensolos unterscheidet.

Riffusion generiert einen endlosen Musikmix, dessen Klang Sie mit Textanweisungen verändern.
Riffusion generiert einen endlosen Musikmix, dessen Klang Sie mit Textanweisungen verändern.

Als Ergebnis liefert das Programm auf der Website riffusion.com einen endlosen Musikmix, der sich auf englische Textanweisungen hin langsam verändert – als wenn ein DJ zu einem neuen Stil übergehen würde. Zwar holpern die Übergänge noch hier und da und der Gesang besteht nur aus unverständlichen Lauten. Die KI hat aber durchaus ein Gespür dafür, wie sich ein Disco-Beat von einem Klaviersolo unterscheidet.

Die Klangqualität ist allerdings mau: Da die entrauschten Spektrogramme nur aus 1024 × 1024 Pixeln bestehen, klingen die generierten Tracks, als wären sie mit einer zu niedrigen Bitrate kodiert worden.

ChatGPT für Musik

Google hat Ende Januar sein MusicLM vorgestellt, das anhand einer Texteingabe oder einer vorgesummten Melodie Musik erzeugt. Zum Training haben die Entwickler einen Datensatz mit 5500 Musik-Text-Paaren verwendet: Die Musikreferenzen bestehen aus YouTube-Links, die von Experten verschlagwortet wurden.

Ähnlich wie Riffusion generiert MusicLM das ihm bekannte Audiomaterial nach den Textvorgaben der Nutzer. Die musikalische Vielfalt ist hier beachtlich. Allerdings vermissten wir in den bisher veröffentlichten Demos ebenfalls die thematischen Ideen – die Stücke plätschern einfach minutenlang vor sich hin. Die Songs sind im SoundStream-Codec mit 24 kHz und einer Bitrate von 6 kBit/s kodiert, sodass sie wie eine Telefonübertragung mit Kompressionsartefakten klingen.

Bis aus diesen interessanten KI-Ansätzen ernstzunehmende kommerzielle Dienste entstehen, die Musikschaffende bei ihrer täglichen Arbeit unterstützen oder gar inspirieren, liegt noch viel Arbeit vor den Forschern: Die KIs müssen eingängige Melodien schreiben und variieren, Songstrukturen und dynamische Entwicklungen einbauen und nicht zuletzt die Klangqualität deutlich verbessern. Chinesische Wissenschaftler von Baidu suchen nach ähnlichen Lösungen für ihr System ERNIE-Music. Unter ct.de/yu9f können Sie sich die Ergebnisse der Musikgeneratoren mit künstlicher Intelligenz selbst anhören. (hag@ct.de)

KI-Musikgeneratoren: ct.de/yu9f

Kommentare lesen (1 Beitrag)