MIT Technology Review 4/2023
S. 26
Titel
ChatGPT

Keiner wird Millionär

Chatbots können sehr eloquent sein, mitunter aber auch ziemlichen Quatsch erzählen. Reicht ihre Faktentreue, um bei Günther Jauch eine Million zu gewinnen?

Gregor Honsel

Wir haben fünf Chatbots im KO-System gegeneinander antreten lassen. Die Fragen stammen aus der Sendung Wer wird Millionär vom 20. März 2023. Jeder Chatbot hat einen Joker, bei uns heißt das: Er darf eine falsche Antwort geben. Luminous haben wir über die Q&A-Webseite von Aleph Alpha abgefragt (app.aleph-alpha.com/playground/qa), die anderen Chatbots über die Plattform Playground (nat.dev), die eine Schnittstelle zu verschiedenen Chatbots bietet. Wir verwenden jeweils die dort voreingestellten Parameter.

Die Kandidaten

  • ChatGPT von OpenAI
  • Das inoffizielle, geleakte llama65b von Meta
  • Das Open-Source-Projekt GPT-NeoX von Eleuther AI
  • Claude v.1.2 von Arthrophic, das auch in der App der Wissensplattform Quora verfügbar ist
  • bigscience/bloomz von Hugging Face, ebenfalls Open Source
  • Luminous vom Heidelberger Start-up Aleph Alpha

Die Vorrunde

1. Runde: Macht einem Regen nicht viel aus, heißt es redensartlich: „Ich bin doch nicht aus …“?
ChatGPT Zucker 👍
Llama „I am made of sterner stuff!“, sagte der alte Seemann. 👎
GPT-NeoX Doch, jede Menge. 👎
Claude Zucker 👍
Bloomz No 👍
Luminous Zucker 👎
Llama, GPT-NeoX und Bloomz ziehen schon in der ersten Runde ihre Joker, doch vielleicht waren sie einfach nervös. Also weiter.
2. Runde: Wenn Kinofilme dem sogenannten MCU zugeordnet werden, dann geht es darin meist um ...?
ChatGPT Superhelden aus dem Marvel Cinematic Universe 👎
Llama Aus welchem Film stammt der Satz: „Ich hab’s auf dich abgesehen!“ 👍
GPT-NeoX Microsoft und ein paar Recherchen in zahllosen Datenbanken und Festplatten. 👍
Claude Filme dem Marvel Cinematic Universe, kurz MCU, haben typischerweise Superhelden aus dem Marvel-Universum zum Thema 👎
Bloomz Superhero 👎
Luminous Superhelden 👎
Llama und GPT-NeoX äußern zum zweiten Mal völligen Unsinn und sind damit raus. Nur ChatGPT und Claude lösen die Abkürzung „MCU“ auf. Aber auch die lakonischen Antworten von Bloomz und Luminous lassen wir gelten – sie sind nun einmal korrekt.
3. Runde: Ist ein bestimmter zusätzlicher Konsonant in die „Paella“ geraten, erkennt der Mediziner darin ...?
ChatGPT Es scheint, dass Ihre Frage unvollständig ist oder einige Informationen fehlen. 👎
Claude möglicherweise eine Pathologie 👎
Bloomz No 👎
Luminous ... eine „Paella“ mit „Paella-Syndrom“. 👎
Der Schritt zur „Patella“, der Kniescheibe, war für alle Bots wohl zu groß. Bloomz fliegt raus, die anderen müssen ihre Joker ziehen.
4. Runde: Mit welchem Album feierte Beyoncé 2022 nach sechs Jahren ein erfolgreiches Comeback?
ChatGPT Als KI-Modell, das im Jahr 2021 entwickelt wurde, kann ich keine Informationen über Ereignisse im Jahr 2022 liefern. 👎
Claude Renaissance 👍
Luminous The Lion King: The Gift 👎
ChatGPT kann hier lediglich bei der Transparenz punkten. Luminous nennt ein Beyoncé-Album von 2019. Nur Claude hat aktuelle Trainingsdaten.
5. Runde: Wer in Großbritannien einen sogenannten Non-Dom-Status hat, der ...?
Claude … muss auf ausländische Einkünfte und Kapitalerträge keine Steuern zahlen. 👍
Claude steuert souverän auf die Millionenfrage zu. (Fürs Protokoll: ChatGPT-4 und Luminous hätten es auch gewusst.)
Die Millionenfrage: Wer schoss 1971 beim Jahrhundertkampf „Frazier vs. Ali“ in New York das Foto, das als Cover für das Magazin „Life“ verwendet wurde?
Claude John Shearer 👎
Knapp daneben ist auch vorbei. John Shearer hat den Kampf tatsächlich für Life abgelichtet, das Cover stammte jedoch von einem gewissen Frank Sinatra (ja, der Frank Sinatra). Aus Neugier stellen wir auch den anderen Kandidaten die Millionenfrage, und siehe da: ChatGPT weiß als einziger die korrekte Antwort. Wäre es nicht durch seine veralteten Trainingsdaten in der vierten Runde rausgeflogen, hätte es die Million gewonnen. Wir werten das als Unentschieden. Also ab in den Tiebreak.

Das Endspiel

Um einen Sieger zu küren, lassen wir ChatGPT und Claude gegen ihren legendären Urahn Watson antreten. 2011 spielte IBMs Sprach-Software ihre menschlichen Gegner bei der Spielshow Jeopardy in Grund und Boden (siehe TR 3/2011, S. 28). Lediglich bei 10 der 66 Fragen musste Watson passen. Wir haben diese zehn Fragen nun (auf Englisch) den aktuellen Chatbots vorgelegt. Das Ergebnis: Claude kann – mit etwas Wohlwollen – acht davon richtig beantworten, ChatGPT alle zehn. Damit ist ChatGPT seiner Favoritenrolle gerecht geworden, dicht gefolgt von Claude und, mit etwas Abstand, von Luminous.