Es gibt bereits eine Reihe von persönlichen Sprachassistenten, wie Siri, Cortana und Google Assistant, und Start-ups nutzen Künstliche Intelligenz, um weitere persönliche Begleiter zu bauen. Es sieht also so aus, als steuerten wir auf eine zunehmend sprachgesteuerte Beziehung zur Technologie zu.
Wie zuvor auf dem Consumer-Markt werden diese Stimmenaktivierungssysteme sich wohl am Ende auch in den Unternehmen durchsetzen. Immerhin haben diese Systeme das Potenzial, Aktivitäten enorm zu vereinfachen und zu automatisieren.
Für Gottlieb Stiebner, Business Development Cloud Services bei ALE, ist klar, dass, es noch lange dauern kann, bis wir jemanden treffen, der alle Eigenschaften von HAL aus 2001: Odyssee im Weltraum aufweist.
Klar ist aber auch, dass es bereits Technologien gibt, mit denen Unternehmen ihren operativen Betrieb erheblich optimieren können.
Ton ab. Kamera ab. Und Action!
Wie viel einfacher wäre es für einen Arzt, einfach nur zu sagen: "System: Aktualisiere die Krankenakte von Maria Schmidt: Patientin hat Bauchschmerzen. Stell ein Rezept für 200 mg SuperAntiGas aus. Unterschrift: Dr. Wohlfühl.“ Und wie schön wäre es, wenn Sie in einem Konferenzraum nicht mit den Fernbedienungen für Bildschirm, Projektor und Beleuchtung kämpfen müssen, sondern nur kurze Sprachanweisung geben: „System: Schalte den Projektor ein, schalte den Bildschirm an, dimme das Licht.“
Die Herausforderungen
Wie weit sind wir auf dem Weg zur Sprachsteuerung vorangekommen? Die Stimmenanalyse-Firma VoiceLabs hat die verschiedenen Schichten beschrieben, die nötig sind, um einen Voice-First-Ansatz in der Verbraucherwelt umzusetzen. Bevor wir jedoch neben den einfachen verbraucherorientierten Anwendungsfällen auch Anwendungen in komplexen mehrsprachigen Unternehmensumgebungen unterstützen können, müssen noch ein paar Dinge passieren.
Sicherheit wird ein entscheidender Faktor sein, wenn wir anfangen, unsere Enterprise-Systeme mit Sprachbefehlen zu steuern: Soll jeder in der Lage sein, unternehmenskritische Geräte oder Systeme zu kontrollieren, indem er einfach nur spricht? Die Antwort ist natürlich: nein. Der Datenschutz ist ebenfalls ein ganz wichtiges Thema.
Das Arztbeispiel scheint ganz einfach zu sein, aber wir müssen es auch im Kontext von Vorschriften und Gesetzen sehen. Sind die Rechte eines Patienten verletzt, wenn durch die Sprachbefehle die medizinischen Daten des Patienten an Dritte gelangen?
Sicherer Zugang
Es gibt bereits die nächste Generation der Spracherkennungssysteme, bei der die Technologie einen sicheren Zugang unterstützt. Banken nutzen diese Systeme, um die Sprachauthentifizierung für ihre Telefonbanking-Systeme einzuführen. Einige Kunden machen sich dabei Sorgen um die Sicherheit ihres Kontos. Ich denke aber, dass wir hier einen vergleichbaren Adoptionszyklus sehen werden wie beim E-Commerce. Dort mussten auch erst die anfänglichen Bedenken bezüglich eines möglichen Kreditkartenbetrugs überwunden werden, bevor es zum kometenhaften Aufstieg des Online-Shoppings kommen konnte.
Wir werden auch künftig immer wieder Innovationen und Verbesserungen bei den Spracherkennungssystemen sehen, die es ermöglichen, die Sicherheit des Sprachsystems in einer Unternehmensumgebung zu gewährleisten, um sicherzustellen, dass nur autorisierte Benutzer mit den richtigen Berechtigungen die entsprechenden Aktionen ausführen können.
Und während unsere Mikrowelle uns nicht ausspionieren kann, werden einige Geräte immer eingeschaltet sein, immer auf Empfang – und möglicherweise immer bereit, uns aufzunehmen. Ein paar auf breiter Front veröffentlichte Fälle von Datenschutzverletzungen, Industriespionage oder rechtlichen Risiken könnten die Einführung massiv verzögern.
Das heißt, dass ein großer An-/Aus-Schalter oder eine entsprechende Funktion in die Voice-First-Produkte aufgenommen werden muss, damit der Anwender die Vorteile nutzen kann, ohne eine ständige Überwachung befürchten zu müssen. Außerdem ist es wichtig, dass die Produkte über einen zuverlässigen sicheren Software-Zugang verfügen, um Hacking-Angriffe zu verhindern und zu erkennen.
Auf dem Weg zu wirksameren Spracherkennungssystemen
Die ersten Anwendungsfälle sind vor allem Sprachdialogsysteme, wie sie beispielsweise in Call-Centern eingesetzt werden oder in unseren Autos und Smartphones implementiert sind. Aber wie viele von uns aus eigener Erfahrung wissen, funktionieren diese Systeme nicht zuverlässig. Spracherkennung und Kontextualisierung müssen durch technologische Entwicklungen noch deutlich verfeinert werden, bevor wir realistisch über einen unternehmensweiten Einsatz nachdenken können.
Forschungsprogramme wie das Sphinx-Projekt der Carnegie-Mellon-Universität verbessern die Sprach-Erkennung immer weiter. Der Internet-Trends-Bericht von Mary Meeker kam zu dem Schluss, dass das Spracherkennungssystem von Google im Jahr 2016 über fünf Millionen Wörter mit einer Genauigkeit von rund 90 Prozent erkennen konnte.
Aber das ist noch lange nicht umfangreich oder genau genug. Oder reicht eine Genauigkeit von 90 Prozent etwa aus, wenn es um die Steuerung von lebenserhaltenden Apparaten in einem Krankenhaus oder die Interaktion mit dem Netzwerk eines Versorgers geht?
Es geht ja auch nicht nur um die Erkennung von Wörtern, sondern auch um das, was mit den Wörtern zu tun ist. Hier kommen Cognitive Engines und KI ins Spiel. Einige der großen Anbieter in der Branche – zum Beispiel Microsoft mit seiner Open Source Cognitive Recognition Engine – unterstützen die Systeme dabei, den Kontext der Wörter zu verstehen.
„Wie komme ich zum Bahnhof?“ mag einfach klingen, aber es muss in den richtigen Kontext gebracht werden. Die Standorterkennung könnte darauf hinweisen, dass Sie wahrscheinlich den lokalen Bahnhof meinen. Wenn Sie in einem Café in der Innenstadt sitzen, wäre die Antwort vielleicht: „Biegen Sie am Ende der Straße rechts ab und folgen Sie der Straße einen halben Kilometer lang." Dabei haben wir aber angenommen, dass Sie die Eisenbahn meinen, und nicht die U-Bahn oder Straßenbahn.
Die Suche nach dem tieferen Sinn
Die eigentliche Herausforderung besteht aber in dem, was sich hinter den Spracherkennungssystemen verbirgt – von der Integration der IoT-Geräte bis hin zum System selbst. Und in der Notwendigkeit sicherzustellen, dass die gegebenen Befehle einen Sinn ergeben. Hier müssen wir die Cognitive Engines noch mehr für die Prüfung und Validierung einsetzen.
Nehmen wir an, jemand gibt aus Versehen den Befehl „Kühlsystem des Reaktors 4 abschalten“ – gemeint ist aber Reaktor 3, der bereits heruntergefahren ist. Oder ein Arzt verschreibt über das System die Überdosis eines Medikaments, weil er versehentlich 400 Gramm sagt statt 400 Milligramm. Das mögen extreme Beispiele sein, sie zeigen aber die Notwendigkeit einer ganzheitlichen Sicht auf die Aktionen, die automatisiert gesteuert werden.
Nur so kann menschliches Versagen verhindert und eine Intelligenz bereitgestellt werden, die die durch die Sprachsteuerung ausgelösten Handlungen bewerten kann. Vielleicht war in unserem Beispiel der Befehl „Kühlsystem des Reaktors 4 abschalten“ korrekt. Dann müsste das System aber immer noch alle operativen Verfahren verstehen, um diese Aktion auszuführen.
API-Plattformen für sprachintegrierte Systeme
Ein interessantes Element, das strategisch mit der Entwicklung von echten sprachgesteuerten Unternehmensumgebungen zusammenhängen kann, beruht auf den Innovationen in der traditionellen Sprachkommunikation. Wir erleben einen explosionsartigen Anstieg von CPaaS (Communication Platform as-a-Service) im Unternehmen, die APIs nutzen, um die bestehenden Anwendungen zu sprachintegrierten Lösungen weiterzuentwickeln.
Einige der großen Sprachkommunikationsanbieter treten jetzt in diesen Markt ein. Sie bieten CPaaS-Infrastrukturen mit einem Standard-Set an APIs, mit denen Unternehmen die Kommunikation in ihre Geschäftsprozesse integrieren können.
Traditionell betrachten wir die Integration von Sprach- und Videodiensten in bestehende Anwendungen – denken Sie nur an eine Bankanwendung, die Ihnen erlaubt, vom Online-Banking direkt zu einem Sprachanruf mit Ihrem Bankberater zu wechseln. Und ich glaube, dass diese Dienste auch eine große Rolle in der „Voice First“-Umgebung spielen werden, indem sie die umfassende API-Infrastruktur der CPaaS-Plattformen nutzen, um mit Anwendungen und Dingen zu kommunizieren.
Neben den Anforderungen an die Kommunikationsinfrastruktur muss die Art und Weise, wie CPaaS oder andere Plattformen mit Geräten kommunizieren, standardisiert werden, bevor wir eine schnelle Entwicklung der Sprachtechnologie sehen werden. Jedes der heutigen sprachgesteuerten Verbrauchersysteme hat eigene Schnittstellen und eigene API-Integrationen. Wie bei dem historischen Kampf „Beta vs. VHS“ vor Jahrzehnten kann das zum Veralten von Produkten führen.
Verbraucher wollen nicht die neueste "smarte Kaffeemaschine" kaufen, wenn die Plattform, die sie steuert, gerade eingestellt wurde. Und genauso möchten Unternehmen sicherstellen, dass die neuen Technologien, in die sie investieren, nicht veraltet sind, bevor die Investition sich amortisiert hat.
Das Beste kommt noch
Erfreulicherweise wird gerade eine Reihe von Technologien entwickelt, mit denen die Gefahr einer vorzeitigen Obsoleszenz verringert wird. Frameworks wie IoTivity wollen eine standardisierte Plattform bauen. Wir erleben den Wert, die Vorteile und die schnelle Ausbreitung neuer Sprachanwendungen bereits bei den Verbrauchern. In naher Zukunft werden wir sehen, wie einige Anwendungsfälle auch in den Unternehmen zum Tragen kommen.
Längerfristig wird es angesichts der Fortschritte bei der Spracherkennung, Sprachsicherheit und bei der Vereinfachung und Standardisierung der Gerätekonnektivität immer mehr Voice-First-Aktivitäten sowohl in der Konsumenten- als auch in der Enterprise-Welt geben, um die Komplexität zu reduzieren und unsere Produktivität zu steigern.