xLSTM: Extended Long Short-Term Memory – bessere KI-Modelle aus Europa

Das von Sepp Hochreiter gegründete Start-up NXAI hat seine neue Architektur für Sprachmodelle vorgestellt. xLSTMs sollen besser sein als Transformer.

2

(Bild: PHOTOCREO Michal Bednarek / shutterstock.com)

08.05.2024, 15:19 Uhr

Lesezeit: 4 Min.

Von

Eva-Maria Weiß

Das Team des Linzer Start-ups NXAI rund um den KI-Pionier Sepp Hochreiter hat einen wissenschaftlichen Aufsatz veröffentlicht, in dem es eine leistungsfähigere Architektur für Sprachmodelle präsentiert, die der bisher üblichen Transformer-Architektur überlegen sein soll. Die sogenannten Extended-LSTM-Modelle (xLSTM) sollen reine Transformer-Modelle in zahlreichen Benchmarks übertreffen und dabei deutlich effizienter sein.

Long Short-Term Memory (LSTM) ist eine spezielle Architektur für neuronale Netze, die auch die Grundlage von KI-Modellen bilden. Die KI-Forscher Sepp Hochreiter und Jürgen Schmidhuber haben sie seit den 1990er Jahren entwickelt, um sequenzielle Daten wie zum Beispiel Texte zu verarbeiten. Anders als die auf Bilder spezialisierten Deep Convolutional Neural Networks haben LSTMs eine Art eingebautes Kurzzeitgedächtnis. Deshalb können sie weiter zurückliegenden Kontext berücksichtigen, wenn sie Sätze bilden oder vervollständigen sollen. LSTMs waren die Basis für den Erfolg von Sparchassistenten wie Siri und Alexa und verbesserten auch das maschinelle Übersetzen deutlich; vom menschlichen Sprach- und Formulierungsniveau blieben die Resultate aber noch weit entfernt.

Riesige Wortwolke

In diese Sphären stieß erst die Transformer-Architektur mit ihrem bekanntesten Protagonisten ChatGPT vor. Transformer haben einen Aufmerksamkeitsmechanismus, über den Wörter und Wortteile so kodiert werden, dass häufig im Kontext verwendete Begriffe nah beieinander liegen. Einen derart verarbeiten Text kann man sich dann wie eine riesige sortierte Wortwolke vorstellen. Deshalb können sich Transformer deutlich größere Textmengen merken und weiter auseinander liegenden Kontext berücksichtigen. Das sogenannte xLSTM-Modell soll nun das leistungsstärkste Large Language Model (LLM) der Welt werden, heißt es bei NXAI, die dafür mit der Johannes-Keppler-Universität Linz eine Forschungskooperation betreiben.

xLSTM im Aufbau. — Der Aufbau eines xLSTM-Modells.

(Bild: Screenshot aus dem Paper. )

Dabei ist xLSTM eigentlich eine Verbindung aus Transformer-Technik und Long Short-Term Memory. Die Forschungsfrage des zugehörigen Aufsatzes lautet entsprechend: "Wie weit kommen wir bei der Sprachmodellierung, wenn wir LSTMs auf Milliarden von Parametern skalieren und dabei die neuesten Techniken moderner LLMs nutzen, aber die bekannten Einschränkungen von LSTMs abmildern?" Herausgekommen sei eine Architektur, die im Vergleich zu den derzeit gebräuchlichen Transformern in Bezug auf die Leistung und die Skalierbarkeit besser abschneide, schreiben die Forscher.

xLSTM hat Potenzial

In der Tiefe wird ein exponentielles Gating durchgeführt, verschiedene Tore bilden das Kurzzeitgedächtnis, das aber lange hält – daher der Name des Modells. Zudem wurde die Speicherstruktur gegenüber dem klassischen LSTM verändert. Das dazugehörige Paper ist veröffentlicht. Dort heißt es abschließend auch: "xLSTM hat das Potenzial, andere Bereiche des Deep Learning erheblich zu beeinflussen – wie Reinforcement Learning, Zeitreihenvorhersage oder die Modellierung physikalischer Systeme."

Allerdings muss es sein Potenzial noch in weiteren und detaillierteren Benchmarks unter Beweis stellen. Für die ersten Tests wurde es mit 15 Milliarden beziehungsweise 300 Milliarden Token des SlimPajama-Datensatzes trainiert und mit einigen Transformer-Modellen, darunter Llama und GPT-3 verglichen. Wie xLSTM sich gegenüber den High-End-LLMs GPT-4, GPT-4V oder Google Gemini schlagen würde, bleibt offen. In ihrem Paper räumen die Autoren selbst ein, dass noch ein umfangreicher Optimierungsprozess notwendig sei, damit die xLSTM-Architektur ihr volles Potenzial ausschöpfen könne.

Hochreiter, deutscher KI-Pionier, der in Österreich forscht, schreibt bei X: "Mit NXAI haben wir begonnen, unser eigenes europäisches LLM zu bauen. Ich bin sehr stolz auf mein Team."

Auch an der Entstehung der Transformer-Archtektur sind Hochreiter als Student und sein damaliger Lehrbeauftragter Jürgen Schmidhuber beteiligt gewesen. Letzterer ist beim diesjährigen OMR-Festival aufgetreten und hat dort über seine Einschätzung zum KI-Hype mit Jonas Andrulis von Aleph Alpha gesprochen.