Feintuning großer Sprachmodelle – so gehts

Durch Feintuning lernen große Sprachmodelle neue Fähigkeiten und eignen sich Fachwissen an. Dank Transformers-Bibliothek gelingt dieses Nachtrainieren sehr leicht.

Von Martin Thissen

Große Sprachmodelle wie GPT-4, Bard oder LLaMA haben innerhalb kürzester Zeit den Büroalltag vieler Menschen verändert. Eine perfekt formulierte E-Mail schreiben, Dokumente zusammenfassen oder den Bubble-Sort-Algorithmus in Python implementieren – dank großer Sprachmodelle (Large Language Models, LLMs) alles im Handumdrehen gemacht. Dennoch liefern sie nicht zwangsläufig die perfekte Antwort auf alle in Form von Prompts gestellten Fragen. Dies liegt häufig daran, dass im Prompt beschriebene Anweisungen nicht ausreichend in den Trainingsdaten des LLM abgedeckt sind, sodass das LLM unsicher über die richtige Antwort ist. LLMs neigen dann manchmal zum Halluzinieren und liefern überzeugend klingende, aber falsche Antworten.

Das Feintuning eines großen Sprachmodells wirkt dem entgegen. Es eignet sich insbesondere, wenn das LLM ausschließlich innerhalb einer bestimmten Domäne verwendet wird. Durch Feintuning können große Sprachmodelle zum Beispiel wesentlich fundierteres Wissen in Spezialgebieten erlangen, etwa in Medizin oder einer Teildisziplin davon. Identisch dazu ist das Vorgehen, um aus einem allgemeinen Sprachmodell einen Chatbot zu bauen. Deshalb wird in diesem Artikel zu Demonstrationszwecken ein Basismodell mit einem öffentlich verfügbaren Datensatz so angepasst, dass es sich in einen persönlichen Assistenten verwandelt.