KI-Suche für die Wissenschaft: "ResearchGPT ist eine Art Turbo-Google-Scholar"

Das Start-up Consensus hat ein auf GPT-4 aufbauendes System entwickelt, das den KI-Textgenerator mit einer Studiensuchmaschine verknüpft. Was steckt dahinter?

In Pocket speichern vorlesen Druckansicht
Young,Female,Teacher,Giving,A,Data,Science,Presentation,In,A

(Bild: Gorodenkoff/ Shutterstock.com)

Lesezeit: 6 Min.

Consensus AI ist eine KI-gestützte Suchmaschine für wissenschaftliche Studien. Sie soll es ermöglichen, Informationen aus der Forschung zu extrahieren und aus diesem Pool dann wichtige Fragen zu beantworten. Mittlerweile wurde die Software auch mit OpenAIs GPT-4 verknüpft – in Form eines sogenannten Custom GPT, die OpenAI im Rahmen von ChatGPT+ anbietet. Consensus-CEO Eric Olson spricht im Interview mit MIT Technology Review darüber, wie die Technik funktioniert.

Herr Olson, was genau ist ResearchGPT und wie ist es mit ChatGPT verknüpft? Ist es nur eines der regulären GPTs, die man jetzt bauen kann, wenn man ChatGPT+ und/oder API-Zugang hat?

ResearchGPT ist ein maßgeschneidertes GPT, das unsere Firma Consensus entwickelt hat. Auf der oberen Ebene verbindet es ChatGPT mit der Consensus-Datenbank aus 200 Millionen Forschungsarbeiten über unsere Such-API. Wir haben auch benutzerdefinierte Anweisungen in das GPT eingebettet, um es bei der Interaktion mit unserer Such-API sowie benutzerdefinierten Daten leistungsfähiger zu machen.

Wenn ein Benutzer mit ResearchGPT interagiert, formatieren wir seine Eingabe in eine Forschungsanfrage, lassen sie durch unsere Suchmaschine laufen und geben dann eine Payload aus maschinenlesbaren Inhalten samt extrahierten Metadaten aus den Studien zurück, mit denen ChatGPT dann spielen und "zaubern" kann. Dies ermöglicht es ChatGPT, wissenschaftliche Studien in seinen Antworten zu zitieren.

Welches Geschäftsmodell steckt hinter ResearchGPT und Consensus selbst?

Das Consensus-AI-Produkt selbst hat ein Freemium-Modell. Ein Großteil unserer Funktionen ist kostenlos, aber einige unserer rechenintensiven Funktionen befinden sich hinter einer Paywall, die nur eine begrenzte kostenlose Nutzung erlauben. ResearchGPT wiederum verfügt noch nicht über ein Geschäftsmodell. OpenAI hat die Monetarisierung innerhalb seines GPT-Stores noch nicht aktiviert. Sobald dies der Fall ist, werden wir hier mit einem ähnlichen Freemium-Abonnementmodell arbeiten.

Wie stellen Sie sicher, dass die Fakten, die Ihr GPT ausspuckt, durch Quellen gestützt werden?

Das ist die zentrale Value Proposition von ReserchGPT. Durch die Verbindung des Chatbots mit unserem Suchprodukt kann er Zitate aus den von ihm gefundenen Studien verwenden, um alle seine Aussagen zu untermauern. Er ist außerdem ausdrücklich dazu angewiesen, dies zu tun.

Was ist mit Grenzfällen? Beispielsweise wenn es eine Kombination aus wahren Fakten gibt – und solchen, die zunächst widersprüchlich erscheinen?

ResearchGPT analysiert die 20 wichtigsten Arbeiten, die unser Suchprodukt liefert. Wenn in verschiedenen Artikeln beide Seiten eines Arguments dargelegt werden, sollten auch beide Perspektiven dargestellt werden. Das sieht dann beispielsweise so aus: "Einige Studien behaupten, dass das Dehnen beim Sport das Verletzungsrisiko verringert (Zitat 1, Zitat 4). Andere Studien behaupten wiederum, dass es keinen Einfluss auf das Verletzungsrisiko hat (Zitat 2, Zitat 3)."

Welche technische Methode nutzt Ihre Suchmaschine? Kosinus-Ähnlichkeit?

Unser Hauptalgorithmus arbeitet mit einer benutzerdefinierten hybriden Suchmethode, die die Suche nach Schlüsselbegriffen mit der Vector Embedding Similarity kombiniert.

Was sind die Grenzen von ResearchGPT? Welche Fragen kann es definitiv nicht beantworten?

ResearchGPT ist natürlich nur so gut wie die Studien, die von unserem Suchprodukt zurückgegeben werden. Wenn Sie Fragen stellen, die nichts mit wissenschaftlicher Forschung zu tun haben (z.B. wie ist das Wetter morgen in Paris?), werden wir Ihnen keine interessanten Informationen liefern können. Außerdem sind alle Schutzmechanismen gegen Hassrede und andere problematische Inhalte, die ChatGPT bereits eingebaut hat, auch innerhalb von ResearchGPT vorhanden.

Ihr Unternehmen heißt Consensus. Wie kann ResarchGPT aber zu einem Konsens kommen, wenn es nicht auf alle Studien weltweit zugreifen kann? Zum Beispiel scheinen Sie keine Forschung aus China zu verwenden.

Wir versuchen, Menschen dabei zu helfen, einen Konsens darüber zu finden, was die Evidenz über ihre Forschungsfragen aussagt. Wir sind bei Weitem nicht perfekt und haben keinen Zugang zu jeder Studie auf dem Planeten und können auch nicht jedes Paper perfekt analysieren. Es bleibt aber ein Ziel, zudem wir ResearchGPT hoffentlich im Laufe der Zeit weiterentwickeln können.

Was ist mit den berühmt-berüchtigten Halluzinationen? Wissenschaftliche KI-Systeme hatten damit in der Vergangenheit eine Menge Probleme – und nicht nur diese.

Da haben Sie recht. Wir sind dagegen nicht immun. Wir verringern das Risiko jedoch erheblich, indem wir ChatGPT mit unserem Suchprodukt verbinden. Dadurch bleiben die Antworten extrem nah am Ausgangsmaterial und das System generiert sie auf deren Grundlage. GPT-4 ist extrem genau, wenn es sich auf Dokumente stützt. Das Dokument selbst kann natürlich Schrott sein, aber GPT-4 halluziniert sehr selten Informationen, die in dem Dokument, aus dem es seine Antwort bezieht, nicht vorhanden sind.

Meta musste seine generative Wissenschafts-KI Galactica zunächst abschalten, nachdem sie sehr merkwürdige Inhalte produziert hatte. Was tun Sie, damit bei ResearchGPT nicht etwas Ähnliches passiert?

Galactica war ein Modell, das auf große Mengen von wissenschaftlichen Forschungsdokumenten trainiert wurde. Es konnte nicht in Echtzeit auf Paper zugreifen und seine Antworten in diesen verankern. Stattdessen verfügte das System nur über latentes Wissen aus Millionen von Trainigsdokumenten.

ResearchGPT gibt ChatGPT hingegen Zugang zu einer wissenschaftlichen Suchmaschine. Bei Galactica hat man versucht, die gesamte Studienarbeit in ein Modell zu packen und dann Antworten aus dem Nichts zu generieren. Das war so, als würde man 100 Millionen Studien lesen und dann aus dem Gedächtnis versuchen, Fragen des Nutzers zu beantworten. ResearchGPT ist hingegen eine Art Turbo-Google-Scholar, das Fragen beantworten kann.

Das Interview wurde per E-Mail geführt und aus Gründen der Länge und Klarheit editiert.

(bsc)