Mac & i 1/2024
S. 70
Report
ChatGPT
Bild: KI Midjourney; Collage: c’t

Wie ChatGPT bei Texten, Bildern und Sprache hilft

ChatGPT kann neuerdings Dokumente und Bilder analysieren, gesprochene Anfragen verstehen und mit Sprache, Text und Bildern antworten. Wir fühlen dem neuen Assistenten auf den Zahn und zeigen, wo die generative KI hilft und wo sie aufs Glatteis führt.

Von Hartmut Gieselmann

Seit der KI-unterstützte Chatbot ChatGPT vor gut einem Jahr auf den Markt kam, hat sich viel getan. Die meisten Neuerungen verbergen sich hinter der Bezahlschranke. Wer rund 23 Euro im Monat für ChatGPT Plus bezahlt, erhält Zugang zum Modell GPT-4V (das V steht für Vision). Dieses versteht nicht nur Textchats, sondern auch gesprochene Fragen und analysiert PDF-Dokumente sowie Bilder. ChatGPT antwortet mit gesprochener Sprache, Text, mit generierten PDF-Dokumenten oder Bildern. Wenn es um das Zusammenspiel dieser multimodalen Fähigkeiten geht, ist OpenAI der Konkurrenz weit voraus. Im Einzelnen beleuchten wir sie auf den folgenden Seiten in den beigen Kästen.

Zudem gehen wir darauf ein, wie man die Anfragen (Prompts) optimiert, was man bei der neuen Bild- und Sprachverarbeitung im professionellen Umfeld beachten sollte und wie man eigene Sprachmodelle (GPTs) erstellt. Denn seit Kurzem ist es möglich, eigene GPTs anzufertigen, um die multimodalen Fähigkeiten auf einen bestimmten Zweck hin zu trimmen. Dabei handelt es sich um GPT-4-Abkömmlinge mit zusätzlichen Instruktionen. Sie ergänzen das bisherige Plug-in-Konzept, indem sie feste Rollen übernehmen und zusätzliche Dokumente für ihre Antworten auswerten.