Versionierung im Machine Learning mit Data Version Control

Varianten im Griff

Nico Axtmann

Änderungen an Code, Daten und Modellen müssen nachvollziehbar und reproduzierbar sein, damit bei der KI-Entwicklung die Übersicht gewahrt bleibt. Dabei hilft ein speziell für Data Scientists entwickeltes Versionskontrollsystem.

In klassischen Softwareprojekten gehören Tools wie Git für die Codeverwaltung zum Standardrepertoire. Bei KI-Projekten ist darüber hinaus die Verwaltung von Daten und Modellen wichtig. Denn schließlich sollten alle Schritte der Datenaufbereitung und Modellentwicklung reproduzierbar sein, um Fehler zu vermeiden, Pipelines robuster zu gestalten und Modelle schneller von der Entwicklung in die Produktion zu bringen.

Gegenüber der Softwareentwicklung gibt es bei Data Science und KI zwei wesentliche Unterschiede. Erstens arbeiten Data Scientists mit Daten, Code und Modellen in Form interaktiver Experimente. Zum Zweiten eignet sich Git als das mit weitem Abstand populärste Versionskontrollsystem nicht zur Verwaltung großer Datenmengen und von Daten im Binärformat, die bei der KI-Entwicklung nötig ist. Nicht zuletzt deshalb sind in der Branche Antipatterns wie die händische Verwaltung von Datensätzen oder das ineffiziente Experiment Tracking in Excel-Tabellen weit verbreitet.