Rechtliche Unsicherheit beim Coding mit KI

Generative KI-Systeme, die Code schreiben können, werden vor ihrem Einsatz mit großen Mengen an Open-Source-Code trainiert. Aufgrund der Regeln aktueller Open-Source-Lizenzen ergeben sich hieraus ganz erhebliche urheberrechtliche Probleme mit unabsehbaren Folgen für alle Seiten.

Von Johannes Endres und Niklas Mühleis

Beim Programmieren auf die Hilfe künstlicher Intelligenz zurückzugreifen, gehört heute zu den Selbstverständlichkeiten. Was vor zehn Jahren mit etwas schlauerer Autovervollständigung durch Produkte wie Kite oder Tabnine begann, entwickelt sich zu einer immer umfassenderen Unterstützung. Nicht nur das allgegenwärtige ChatGPT beantwortet Prompts auf Wunsch mit Code; zahlreiche codespezifische Dienste wie Replit Ghostwriter, Codium.ai, Codeinum.com, Copilot von GitHub/Microsoft, Amazons CodeWhisperer, Googles Vertex AI (ehemals Codey) oder die gleich um eine KI herum gebaute IDE Cursor unterstützen immer umfangreicher beim Programmieren. Beim Eintippen bieten sie mehrzeilige Abschnitte oder ganze Klassen an, sie erzeugen Code aus Prompts und Chats, erklären die Funktion undokumentierten Codes in natürlicher Sprache, schreiben Commit-Messages und Pull Requests oder massenhaft langweilige Unit-Tests.

Diese Leistungen erbringen die Tools auf der Basis moderner generativer KI-Modelle. Diese werden entweder nur mit Code-Repositorys trainiert oder es werden zur Generierung natürlicher Sprache trainierte Modelle mit Code feingetunt. Wie das genau geschieht, behandeln die Anbieter ebenso als Geschäftsgeheimnis wie die dafür verwendeten Trainingsdatenkorpora. Lediglich einige kleinere Player wie CodeParrot lassen sich auf huggingface.co in die Karten schauen. Sonst ist in der Regel von „öffentlich zugänglichem Code“ die Rede. Durch Open-Source-Software in den bekannten öffentlichen Repositorys steht davon ja genügend zur Verfügung.