OpenAI will robots.txt ersetzen – Media Manager für Creator, Urheber, Verlage

Mit einem neuen Media Manager will OpenAI regeln, wie Daten im Netz verwendet werden dürfen. Das soll robots.txt ersetzen.

In Pocket speichern vorlesen Druckansicht 42 Kommentare lesen
Ein offener Laptop wird von einer Person mit blauem Hemd bedient; über der Tastatur schweben der Schriftzug ChatGPT und einigen abstrakte Symbole

(Bild: CHUAN CHUAN/Shutterstock.com)

Lesezeit: 4 Min.

Bisher regelt robots.txt-Datei, welche Crawler eine Seite zulässt. Diese nutzen dann die gefundenen Informationen für beispielsweise die Google-Suche, aber auch für das Training von KI-Modellen. OpenAI will diese Datei nun ersetzen. Der Media Manager sei geeigneter, die Rechte an Inhalten online zu verwalten. Bis 2025 will das Unternehmen ihre Version einsatzbereit haben. Die genaue Umsetzung ist allerdings noch ziemlich unklar.

Problematisch ist bei der bisherigen Regelung, dass man Crawler einzeln benennen muss, um sie auszuschließen. Bisher konnte man überblicken, welche Crawler relevant waren. Doch mit KI und dem Bedarf an Trainingsmaterial hat sich das geändert. Zahlreiche Verlage und Urheber wollen nicht, dass ihre Inhalte für das Training von KI-Modellen genutzt werden. Sie schließen die bekannten Crawler aus, doch aktuell kann es täglich neue geben. Webseitenbetreiber kommen also im Zweifel nicht hinterher. Der reine Text auf einer Webseite, dass die Verwendung der Inhalte nicht erlaubt ist, reicht leider in der Regel nicht aus. Hinzu kommt, dass man ja bei Google gefunden werden möchte. Google sichert sich aber zugleich, dass alles, was für die Suche genutzt wird, auch für KI-Trainings genutzt werden darf. Ein Dilemma.

OpenAI ist ebenfalls auf reichlich Daten angewiesen und schlägt nun also vor, das ganze System zu ändern. Dabei hat das Unternehmen im Blick, dass nicht jeder Inhalteersteller oder Urheber auch die Rechte an einer Webseite oder einer Plattform hat und deshalb gar nicht immer entscheiden könne, was in der robots.txt geschrieben steht. Der Media Manager, den OpenAI entwickelt, richtet sich also direkt an die Ersteller. Sie sollen OpenAI sagen, was sie sich wünschen, wie mit ihren Inhalten umgegangen wird. Das soll mittels Machine Learnings funktionieren. Konkreter wird die Erklärung jedoch noch nicht.

In dem sehr ausführlichen Blogbeitrag zum Media Manager äußert sich OpenAI vor allem dazu, dass ihre KI-Dienste ja allen Menschen helfen sollen – auch den Urhebern. Diese werfen dem Unternehmen allerdings oftmals eher Diebstahl vor. Gemeint ist urheberrechtlich geschütztes Material, das ohne Erlaubnis in das Training der KI-Modelle geflossen ist, mit dem OpenAI nun aber ein Geschäft aufgebaut hat. Das US-Prinzip von fair-use besagt, dass geschützte Werke genutzt werden dürfen, wenn es der Allgemeinheit zugute kommt. Außerdem erklärt OpenAI im Blogbeitrag, man sei keine "Database". Man sehe KI-Modelle als Lernmaschinen, die Inhalte verarbeiten und nicht speichern und wiedergeben.

OpenAI erklärt, die Links zu den Quellen bei ChatGPT würden Publishern helfen, mit ihren Lesern in Kontakt zu treten. Was das Unternehmen dabei unterschlägt: Wenn ein potenzieller Leser bei ChatGPT bereits die Antwort aus beispielsweise einem Artikel herauskopiert bekommt, tritt er nicht mal mit der Webseite des Verlags in Kontakt.

OpenAI beruft sich bei der Frage nach der Bezahlung der Inhalteersteller auf die bereits abgeschlossenen Verträge mit Verlagen wie Axel Springer, der Financial Times, Le Monde und weiteren: Das sei ein Vorteil für Nutzer und Verlage. Allerdings wird OpenAI kaum mit allen Verlagen und Urhebern dieser Welt solche Verträge abschließen können. Dabei fließen Millionen bis Milliarden. Derartige Wettbewerbsvorteile sind gegebenenfalls unter dem Digital Markets Act (DMA) auch gar nicht zulässig.

Auch Google und Meta streiten sich seit Jahren auf der ganzen Welt mit den Verlagen wegen des Leistungsschutzrechts. Dabei geht es immer um die Frage, wer was davon hat, dass die beiden Big-Tech-Unternehmen Links anzeigen. Auf der einen Seite besteht ihr Geschäft zu großen Teilen auf diesen Links – und dem Werbeumfeld, das sie drumherum erschaffen haben. Auf der anderen Seite führen sie die Menschen auf die Seiten der Inhalteersteller – anders, als ChatGPT das vorsieht.

(emw)