.st0{fill:#FFFFFF;}

Stagniert das Voice Wachstum? 

von  Sebastian Podesser

29.04.2022


Um das Voice Wachstum zu beurteilen, müssen wir uns zuerst den Begriff „Voice“ genauer ansehen. Für viele besteht Voice nämlich aus Alexa, Siri oder Google Assistant. Tatsächlich machen diese 3 Sprachassistenten aber nur einen Teil der gesamten Voice-Welt aus. Wenn ich von Voice spreche, dann meine ich damit jede Interaktion zwischen Menschen, Software und Hardware, die gänzlich oder teilweise per Sprache gesteuert wird. Das kann natürlich der Smart Speaker zuhause von Amazon, Apple oder Google sein. Das kann aber auch Siri oder Google Assistant am Smartphone, ein virtueller Agent im Kundenservice, eine In-App-Sprachfunktion eines Lieferdienstes zum Befüllen des Warenkorbs, eine Pizza-Bestellung während einer Netflix Serie, das Bezahlen per Sprache an der Tankstelle, das Navigieren im Metaverse, eine interaktive Audiowerbung während deines Lieblingspodcasts oder der Custom Assistant deines Autos sein. Selbst das war nur ein Ausschnitt der aktuellen Möglichkeiten, ganz zu schweigen von all den Entwicklungen der kommenden Jahre.

Ein Voice-Experiences Überblick

Die Frage also, ob das Voice Wachstum stagniere, ist mit einem ganz klaren „Nein“ zu beantworten. Ganz im Gegenteil. Woher kommen dann aber die Stimmen, über die man in der Branche in letzter Zeit gelegentlich stolpert? Teilweise wahrscheinlich von Personen, die den gesamten Voice-Kosmos mit Alexa Skills und Google Actions gleichstellen. Und teilweise vielleicht durch Missinterpretationen bestimmter Statistiken. Eine Botschaft, die in den vergangenen Jahren um die Welt ging, sorgte denke ich für eine verfälschte Perspektive: „Smart Speaker wachsen schneller als Smartphones.“ Diese Aussage birgt nämlich das Risiko zu glauben, Smart Speaker müssten Smartphones ersetzen. Und nachdem viele keinen Unterschied zwischen „Smart Speaker“ und „Voice“ machen heißt das: Voice ersetzt das Smartphone. Und das ist auf keinen Fall das Ziel dieser Technologie. Um einen klaren Überblick der Voice Welt zu bekommen, bietet es sich an, alle Voice Experiences in folgende 3 Kategorien zu unterteilen: Voice-Only, Voice-First und Voice-Added.

Der Voice-Only Bereich besteht aus Geräten, deren Input und Output ausschließlich aus Sprache und Audio besteht (z.B.: Smart Speaker). Es gibt somit keinerlei visuelle Elemente. Der Voice-First Bereich hingegen erweitert dies um visuelle Komponenten als Output bzw. Sprache & Touch als Input (z.B.: Smart Displays). Der Voice-Added Bereich besteht aus Geräten, deren Nutzung und Navigation durch Sprache erweitert wird (z.B.: Smartphones, Autos, Smart-Home Geräte, uvm.).

In diese Richtung entwickelt sich das Voice Wachstum

Der aktuelle Smart Speaker Consumer Adoption Report von voicebot.ai zeigt, das Wachstum von Smart Speaker in den USA hat sich gerade auf einem komfortablen Niveau von ca. 50% eingependelt. Wenn man also nur den Voice-Only Teilbereich betrachtet, ist die Beobachtung einer Stagnation richtig. Was viele übersehen: Die Voice-First und Voice-Added Bereiche entwickeln gerade zeitgleich eine beachtenswerte Dynamik. Das Stichwort hier ist „Multimodal“. Multimodales Voice Design ist die Gestaltung einer Benutzeroberfläche, die sprachgesteuerte Berührungspunkte mit visuellen verbindet. Und genau das passiert in allen Anwendungen dieser Bereiche.

Sprachassistenten sind mittlerweile auch im deutschsprachigen Raum weit verbreitet. Laut Voice Consumer Index 2021 von Vixen Labs nutzen 52% der Deutschen Sprachassistenten. Nur 4% sind sich der Existenz von Sprachassistenten gar nicht bewusst. Wenn wir einen genaueren Blick auf die Nutzungshäufigkeit der rund 43,6 Millionen Nutzer*innen werfen, fällt auf, mehr als jede dritte Person nutzt Sprachassistenten täglich.

Conclusio

Das Voice Wachstum nimmt stetig zu. Deshalb fließt auch immer mehr VC-Geld in den Markt. Viele große Marken erweitern bestehende Touchpoints mit Sprachfunktionen. Wir sind gerade an einem Punkt, in dem es nicht viel für den nächsten Schwung benötigt. Sehr viele Menschen haben Sprachassistenten mittlerweile getestet. Viele wurden auch ehrlicherweise enttäuscht, weil an gewissen Stellen sicher mehr versprochen als gehalten wurde. Die Technologie entwickelte sich jedoch vor allem in den letzten 3 Jahren in einem enormen Tempo weiter. Spracheingaben werden daher immer besser verstanden und das Vertrauen in die Technologie wächst immer weiter. Und so wird es für viele von uns immer gängiger werden mit den Geräten rund um uns so natürlich wie möglich zu interagieren – nämlich einfach per Sprache.