Sprachsteuerung: Zukunft im E-Commerce?

Verständnisprobleme

Frank Puscher

KI-Services, vor allem von IT-Giganten wie Amazon, Google, IBM und Microsoft, gibt es mittlerweile reichlich. Bislang ergeben sich daraus jedoch nur selten interessante Einsatzoptionen für Endanwender. Drei Interface-Experten diskutieren, ob sich das in naher Zukunft ändern könnte.

Techniken für KI und Sprache

Amazon bietet mit dem Echo und dem Echo.dot zwei Hardwarevarianten an. Letzterer besitzt nur Mikrofone, aber keine eigenen Lautsprecher. Die Geräte greifen übers WLAN auf den Artificial-Intelligence-Service Alexa zu. Der Anbieter stellt Unternehmen eine offene Schnittstelle zur Verfügung, mit der sie sogenannte Skills entwickeln können. Das sind im Grunde Plug-ins, die per Sprache gesteuert werden. MyTaxi gibt an, täglich zehn Bestellungen via Alexa zu erhalten. Alexa selbst ist nicht an Echo gebunden. Kühlschrankproduzent LG bietet den Zugang über eigene Hardware an.

Wie Alexa/Echo soll Google Home die Steuerzentrale für den Haushalt sein. Das gilt nicht nur für die Onlineanbindung, sondern auch zum Steuern des Smart Home, etwa mithilfe von Philips Hue-Lampen, die sich ins WLAN hängen lassen. Google öffnet das System ebenfalls gegenüber Drittanbietern, installiert die Services jedoch direkt, ohne dass der Nutzer etwas tun muss. Das Google-Gerät kann mit Hardware des US-amerikanischen Heimautomationsanbieters Nest sowie mit den Geräten aus dem Chromecast-Segment zusammenarbeiten.

AutoVoice ist eine der interessantesten Anwendungen für Google Home, denn sie erlaubt es dem Nutzer, sich eigene Sprachbefehle auszudenken und damit sein individuelles Setup anzulegen. Das ist ein wesentlicher Schlüssel zum Erfolg der Sprachsysteme, denn die Anwender dürften sich sich auf Dauer schwertun, zu jedem Skill neue Befehle zu lernen.

Und hier kommt Viv ins Spiel. Das Unternehmen will eine Metaebene für unterschiedliche KI-Systeme bieten. Viv nutzt die Spracherkennung von Nuance und eröffnet Programmierern die Möglichkeit, eigene Bots zu entwickeln. Diese sind – wie bei Google – fest integriert und lassen sich umgangssprachlich steuern. Schluss mit „Alexa, frag Deutsche Bahn …“. Viv bietet eine Entwicklungsumgebung an, die in der Lage ist, Bots selbst zu kompilieren. Mithin ist eine Infrastruktur denkbar, in der jeder Benutzer seinen ganz persönlichen Bot bekommt.

Fortschritte in der Spracherkennung erlauben neue Formen der Interaktion von Technik und Benutzer, etwa beim Einkauf im Web. In der Praxis stößt die Sache allerdings noch oft an ihre Grenzen. Die hier diskutierten Möglichkeiten sind im Kasten „Techniken für KI und Sprache“ beschrieben. Drei Fachleute haben darüber mit iX gesprochen:

Christian Kuhn ist der Meinung, dass sich künstliche Intelligenz erst dann richtig durchsetzen kann, wenn sich auch Emotionen digitalisieren lassen (Abb. 1).

Michel Wollenschläger vermutet, dass die Kombination von Dialogsystemen und Bildschirmen die beste Mischung ergibt (Abb. 2).

Wolfgang Henseler sieht Google in der Poleposition, ein leistungsfähiges Dialogsystem mit Deep Learning und KI zu errichten (Abb. 3).

Wolfgang Henseler beschäftigt sich seit 20 Jahren mit der Mensch-Maschine-Schnittstelle. Er ist Professor an der Hochschule Pforzheim und führt als Creative Managing Director die Agentur Sensory Minds. Michel Wollenschläger arbeitet als Produktdesigner in Aachen und will komplexe Zusammenhänge und dynamische Daten in angenehme Nutzererlebnisse verwandeln. Christian Kuhn betreibt die Agentur Nuisol, die sich seit 2007 mit App-Entwicklung und mobilen Interfaces beschäftigt.

iX: Herr Henseler, Herr Kuhn, Herr Wollenschläger, alle reden zurzeit von Alexa, aber diese Technik kann doch noch gar nicht viel. Handelt es sich hier um einen klassischen Hype?

Bei komplexen Konfigurationen sind Dialogsysteme wie Alexa derzeit noch nicht sonderlich leistungsfähig (Abb. 4). *Quelle: Amazon*

Henseler: Alexa und die anderen Conversational Interfaces wie Siri, Cortana, Google Assistent oder Viv sind Trend und Hype zugleich. Auf der diesjährigen Consumer-Electronic-Messe in Las Vegas haben wir gesehen, dass über 50 Anwendungen mit Amazons Voice-System Alexa vorgestellt wurden und es in Kühlschränken, Autos, Smart Homes, Service-Robotern et cetera Einzug hält. Unternehmen wie Mattel oder Lenovo haben zudem vergleichbare „Sprachdosen“ à la Amazon Echo vorgestellt. 2017 ist sicherlich das Jahr der zuhörenden und sprechenden Dosen, auch wenn diese noch in den Kinderschuhen stecken.

Wollenschläger: Das Problem aus meiner Sicht ist, dass Amazon hier wieder den gleichen Fehler macht wie andere schon früher. Zum Beispiel Microsoft beim Office-Assistenten oder Ikea mit dem interaktiven Chatbot auf der Homepage. Die versuchen, zu realistisch zu sein. So wie echte Dialogpartner. Das führt dazu, dass Menschen ständig darauf aus sind, die Systeme zu übertölpeln. Sie fragen: „Liebst du mich?“ oder „Was ist der Sinn des Lebens?“ Die Erwartungshaltung der Menschen ist enorm groß und deswegen überwiegt am Anfang die Enttäuschung. Bei Alexa ist das etwas abstrakter, weil das „Lebende“ nicht über die äußere Form angelegt ist.

Von Hype kann jedoch keine Rede sein. Es gibt viele kluge Köpfe, die sich mit dem Thema beschäftigen, das kann auf Dauer nur zu einer großen Menge guter Anwendungen führen. Da wird sich in den nächsten Monaten wahnsinnig viel bewegen. Im Finanzwesen gibt es beispielsweise schon eine App, die das Thema Geldausgeben in einem Dialogsystem umsetzt. Sobald man Geld aufs Konto bekommt, schlägt es aktiv vor, was man damit machen könnte: feiern, Dinge kaufen, Schulden abbezahlen oder sparen.

Kuhn: Ich finde es schon beachtlich, wenn zum Beispiel der CTO von Microsoft sagt, dass Sprachsteuerung das neue Betriebssystem fürs Internet wird. Wir müssen aber bedenken, dass wir gerade in diesen Tagen von den Unternehmen dazu eingeladen werden, diese Sprachassistenten zu trainieren. Die sind noch sehr jung und unerfahren. Wir haben Alexa schon seit einem Jahr im Test und es ist schon erstaunlich, wie schnell das System dazulernt. Am Anfang blieben noch viele Fragen offen, die Alexa heute beantworten kann. Die Spracherkennung hat sich ebenfalls verbessert. Wir sind noch ganz am Anfang. Die Systeme können zwar schon recht viel, für den Alltagsbetrieb allerdings zu wenig. Aber die Lernkurve ist exponentiell.

iX: Was kann Sprache als Interface überhaupt leisten? Wo sind die besonderen Herausforderungen?

Henseler: Sehr viel. Sprache ist eine der natürlichsten Interaktionsformen des Menschen. Und je natürlicher und intuitiver Interfaces sind, desto besser funktionieren sie auch für uns. Daher werden sprachliche Interfaces, sobald sie uns gut verstehen und intelligent antworten und agieren können, die klassischen grafischen Schnittstellen ablösen. Sprache ist aufgrund ihrer Semantik, also dessen, was im Nutzungskontext gemeint ist, extrem komplex, wenn es darum geht, sie zu algorithmisieren. Und genau darin liegt die Herausforderung. Das erkennt man unter anderem daran, dass Unternehmen wie Apple mit Siri oder Google mit ihrem Sprachassistenten über fünf Jahre benötigt haben, um die Verständlichkeit um 30 Prozent zu erhöhen. Erst wenn eine 99,5-prozentige Kongruenz zwischen dem besteht, was ein Mensch sagt, und dem, was das System versteht, bekommen wir eine breite Akzeptanz in der Bevölkerung für diese neuen Systeme.

Wollenschläger: Ich sehe ein Problem in der menschlichen Hemmschwelle. Es gibt ja schon erste Satiren, die Menschen zeigen, die nur noch Alexa als Freundin haben und sonst niemanden mehr. Im Moment überfordert viele die Idee, dass die Dinger reden können, aber das wird mit der Zeit besser.

iX: Dialog-Interfaces in Bots wirken ziemlich schnell schwerfällig, wenn es um das Sortieren größerer Auswahlen geht. Ist das eine Kinderkrankheit?

Henseler: Dies ist der großen Herausforderung der semantischen Interpretation geschuldet. Es geht ja nicht nur darum, Sprache, Syntax und Grammatik richtig zu verstehen, sondern auch darum, den Kontext, in dem ein Nutzer etwas möchte, mit in die Analyse und Bewertung einzubeziehen. Dafür braucht man viel Sensorik, extreme Rechenleistung und einen enormen Fundus an Referenzmodellen. Hieran sind schon in den frühen 1980er-Jahren scharenweise Entwickler wie Marvin Minsky oder Raymond Kurzweil gescheitert, weil sie beim Thema situative Relevanz komplett unterschätzt hatten, wie aufwendig deren Beherrschbarmachung durch eine Maschine ist. Ähnlich wird es den Entwicklern selbstfahrender Autos gehen. Diese Themen sind extrem komplex, bedürfen enormen Maschinenlernens und benötigen sehr viel Zeit.

Wollenschläger: Bei der Sprache würde ich zustimmen, bei Bots gilt das aus meiner Sicht nicht. In meinem eigenen Shop bekomme ich schon 85 Prozent der Bestellungen über den Facebook-Messenger. Das funktioniert richtig gut. Auch bei der Suche nach Geschenken helfen diese Tools schon enorm.