Voice Interfaces I - Ein Trend mit Vergangenheit
Bis ins Jahr 2015 wurden Voice Interfaces von den meisten eher als eine nette Spielerei wahrgenommen, die auf Smartphone und Navigationssysteme beschränkt war. Doch mit Amazon Echo kam diese Technologie quasi über Nacht in die Wohnzimmer vieler Verbraucher auf der ganzen Welt.
Amazon behält sich zwar die genauen Absatzzahlen vor und hat bis heute keine weiteren Details veröffentlicht, jedoch wurden laut des Nachrichtenportals Business Insider im Jahr 2015 bereits 2,4 Millionen Amazon Echos weltweit verkauft. 2016 stieg der Absatz auf 5,2 Millionen an. Dadurch entdeckte auch Apple das bis dato stiefmütterlich behandelte Siri wieder und kündigte im Juni 2017, nach sechs Jahren Stille um das Spracherkennungsprogramm, ein ganz eigenes Device dafür an: den HomePod. Auch andere Unternehmen sahen sich gezwungen, diesem Trend zu folgen, wussten jedoch wenig damit anzufangen.
Back to the roots
Dabei sind Voice- bzw. Conversational Interfaces nicht wirklich etwas Neues. Voice Interfaces sind genau betrachtet Conversational Interfaces mit einem speziellen Eingabekanal, nämlich der analogen Sprache. Die Entwicklungsetappen der vergangenen Jahrzehnte dürften vielen Marktbeobachtern sogar bekannt sein. Betrachtet man die Technologie, die heutzutage hinter einem Voice Interface steckt, findet man zwei unterschiedliche Komponenten: Die eine ist für das Transkribieren von analoger Sprache in Text zuständig. Die andere analysiert den Text und reagiert entsprechend darauf. Dieser Teil wird durch Natural Language Processing und weitere Technologien der Künstlichen Intelligenz (KI) realisiert. Beide Komponenten gibt es als getrennte Technologien schon sehr lange:
1) Transkribieren
Transkribieren bedeutet einfach ausgedrückt, die Umwandlung von gesprochenem Text oder auch Gebärdensprache in eine schriftliche Form. Entsprechende Software gibt es bereits seit 1982. Seinerzeit hatte die Firma Dragon Systems dafür eine Software auf den Markt gebracht. Diese wurde für das damalige DOS(x86) entwickelt, hieß „DragonDictate“ und war eher rudimentär. Kontinuierlich zu transkribieren war damit nicht möglich. 15 Jahre später brachte dieselbe Firma „Dragon NaturallySpeaking 1.0“ auf den Markt. Die Software verstand natürliche Sprache bereits so gut, dass sie hauptsächlich für Diktate am Computer genutzt wurde. Allerdings mussten die damaligen Systeme stark auf die eigene Stimme trainiert oder das verwendete Vokabular begrenzt werden, um die Erkennungsgenauigkeit zu verbessern. Daher gab es bereits entsprechend vorgefertigte Sprachpakete für beispielsweise Anwälte oder Mediziner, deren Sprachgebrauch sehr speziell ist. Einmal optimiert, lieferten diese frühen System erstaunlich gute Resultate. Darüber hinaus bestand aber auch bereits die Möglichkeit, via Dragon ein Windows-System mit Sprachbefehlen zu steuern.
2) Natural Language Processing
Nachdem die Sprache transkribiert wurde, kann der Text weiterverarbeitet werden. Bei der Überlegung was für eine Technologie einen Text, der ansatzweise natürlich-sprachlich klingt, als Eingabe zulässt und darauf sinnvoll reagieren kann, kommt man schnell auf die sogenannten Chatbots. Diese sind eine Unterklasse autonomer Programme namens Bots, die bestimmte Aufgaben selbstständig erledigen. Chatbots simulieren Gesprächspartner, die oftmals themenbezogen agieren. Auch wenn sich diese erst in den letzten Jahren steigender Beliebtheit erfreuen, muss man auch hier eher von einer Renaissance sprechen; der erster Chatbot erblickte bereits vor 52 Jahren das Licht der Welt. Der Informatiker Joseph Weizenbaum entwickelte „ELIZA“, die heute als Prototyp der modernen Chatbots gilt und die Verarbeitung natürlicher Sprache demonstrieren sollte.
3) Künstliche Intelligenz
Die Entwicklung von ELIZA machte deutlich, dass einfache Mittel ausreichen, um beim Turing-Test für Künstliche Intelligenz (KI), bei dem es um die subjektive Bewertung eines Gesprächs geht, gute Ergebnisse zu erzielen. Probanden haben, trotz der simplen Mechanismen des Bots, angefangen eine persönliche Bindung aufzubauen, um dann sogar über private Dinge zu schreiben. Die Erfahrungen mit diesem ersten Conversational Interface sorgten für viel Aufmerksamkeit und kontinuierlich verbesserte Chatbot-Technologien.
So wurde 1981 beispielsweise BITNET (Because It's There NETwork) ins Leben gerufen, ein Netzwerk, das die Forschungs- und Lehreinrichtungen der USA miteinander verband. Eine Komponente dieses Netzwerks war Bitnet Relay, ein Chatclient, aus dem später der Internet Relay Chat (IRC) wurde. Für diese Chat-Systeme, so auch für ICQ wurden im Laufe der Zeit von Studenten und Nerds unzählige, mehr oder weniger einfache, Chatbots entwickelt. Diese basierten, wie auch ELIZA, auf der einfachen Erkennung von Sätzen und nicht auf der Auswertung von Wissen.
2003 begann eine weitere wichtige Entwicklung, die auf eine neue Klasse von Chatbots einzahlt, nämlich auf die Smart Assistants wie beispielsweise Siri. CALO, der "Cognitive Assistant that Learns and Organizes", war eine von der Defense Advanced Research Projects Agency ins Leben gerufene Entwicklung, an der sich viele amerikanische Universitäten beteiligten. Das System sollte dem Nutzer dabei helfen, effektiver mit Informationen umzugehen und ihm zu assistieren, indem es permanent seine Fähigkeit verbessern, die Wünsche des Nutzers richtig zu interpretieren. Basis dafür ist die digitale Wissensrepräsentation. Damit ist gemeint, wie Wissen in einem digitalen System festgehalten und nutzbar gemacht werden kann. Durch semantische Netze können Objekte und deren Fähigkeiten in Relation zu anderen Objekten abgebildet werden, die es dem Smart Assistant ermöglichen, Verständnis dafür zu entwickeln, was ein Nutzer mit einer bestimmten Äußerung ausdrücken möchte. Möchte beispielsweise ein Kunde einen „trockenen Wein“ über seinen Smart Assistant bestellen, so muss dieser kontextabhängig die Verbindung zwischen den Begriffen „trocken“ und „Wein“ kennen. Nur so versteht er, dass es sich hier um eine Geschmacksnuance handelt und nicht um die Abwesenheit von Flüssigkeit.
Die Learnings
Das einfache Erkennen und Vergleichen von Texten, auch Matching genannt, und die intelligente Analyse mittels Wissensrepräsentation sind zwei unterschiedliche Technologien, die sich unabhängig voneinander weiterentwickelt haben. Mit Hilfe des Matching-Ansatzes, lassen sich die meisten Anwendungsfälle mit überschaubaren Mitteln umsetzen. Für komplexere Anfragen eignet sich jedoch ein Smart Assistant deutlich besser. Allerdings ist diese Technologie in der Entwicklung und Umsetzung wiederum aufwendiger, da sie eine breite Wissensbasis benötigt.
Aktuell trifft man daher meist auf Chatbots, die auf der Matching-Technologie basieren und mit Hilfe von Machine Learning (ML) trainiert werden können. Bei dieser Methode werden dem System möglichst viele Textvarianten zu einer bestimmten Aussage übergeben, die es lernt, um in der späteren Anwendung auch Sätze zu erkennen, die Ähnlichkeit zu dem Gesagten haben, ohne über spezielles Wissen verfügen zu müssen.
Heutzutage können wir zwischen zwei Technologien wählen, die bei einem Conversational Interface zum Einsatz kommen können. Je nach Anforderungen muss man sich die Frage stellen, ob ein System, das Gesagtes mit gelernten Satzstrukturen vergleicht, genügt oder wird ein System benötigt, das versucht den Sinn des Gesagten zu verstehen und entsprechend darauf reagiert?
Dies ist der erste Beitrag einer mehrteiligen Serie zum Thema Voice Interfaces:
• Teil 1: „Voice Interfaces - Ein Trend mit Vergangenheit“
• Teil 2: „Voice Interfaces – Das Hier und Jetzt“
• Teil 3: „Voice Interfaces – Die drei größten Herausforderungen“
• Teil 4: „Voice Interfaces – Ein Blick in die Zukunft“
Dieser Artikel wurde auf adzine.de veröffentlicht.