KI-Training: Qualitäts- und Urheberrechtsprobleme bei Sprachmodellen

Wenn Maschinen viele Webseiten und Bücher verschlingen, werden sie nicht unbedingt schlauer, wie ein Blick ins Bücherregal der künstlichen Intelligenzen zeigt.

Artikel verschenken
In Pocket speichern vorlesen Druckansicht 1 Kommentar lesen

(Bild: Erzeugt mit Midjourney durch c't.)

Lesezeit: 16 Min.
Inhaltsverzeichnis

Shawn Presser ist unter Buchautoren und Literaten derzeit wohl der am meisten gehasste US-Amerikaner. Auf ihn sind Autoren ähnlich schlecht zu sprechen wie Musiker auf Shawn Fanning und Sean Parker: Die starteten 1999 die Musiktauschbörse Napster und lösten damit die bis dato größte Krise und Transformation der Musikindustrie aus.

Presser unterhält keine Piratenseite, sondern er hat vor drei Jahren eine Sammlung von 196.000 Büchern zusammengetragen, die seitdem unter dem Namen Books3 zum Training großer Sprachmodelle wie Metas Llama herangezogen wird. Das US-Magazin Wired beschreibt Presser als einen zur damaligen Zeit arbeitslosen KI-Forscher. Auf der Suche nach einem großen Bücherkorpus sei er auf das Datenprojekt The Eye gestoßen, das unter dem Namen "Bibliotik" eine große Schattenbibliothek digitaler Bücher hostete.

Mehr zum Thema Künstliche Intelligenz (KI)

Die Bücher waren aus unzähligen Quellen aus dem Internet zusammenkopiert, ohne die Urheber um Erlaubnis zu bitten. Presser nutzte ein Skript des verstorbenen Open-Source-Aktivisten Aaron Swartz, um die Texte zu konvertieren. Lediglich eine Woche soll die Sammlung und Aufbereitung gedauert haben, bevor The Eye den Korpus im Oktober 2020 als "Books3" veröffentlichte.