Vertrieb

Geschäftsangebot

Wählen Sie den Zweck der Anfrage aus:

Partnerschaft und Großhandel
Einzelkauf

Ihr Wunsch ist mir Befehl

Noch vor 31 Jahren war ein Fernseher, der im Film Zurück in die Zukunft, Teil II auf Sprachbefehle reagierte, eine ebenso fantastische Idee wie ein fliegendes Auto. Heute hat fast jeder Zugang zu Geräten mit Sprachsteuerung. In diesem Artikel erklären wir, wie Spracherkennung funktioniert und zeigen Ihnen am Beispiel von Google Assistant, wie Sprachassistenten eingesetzt werden.

Frühe Experimente zur Spracherkennung

Überraschenderweise war das erste Heimprodukt mit Sprachschnittstelle (VI) ein Spielzeug. Im Jahr 1987 kam die Puppe Julie auf den Markt, die darauf programmiert werden konnte, die Sprache von Kindern zu erkennen. Julie reagierte auf Reize wie das Ausschalten des Lichts und las aus den mitgelieferten Büchern vor.

Einige Jahre später kam die erste Diktiersoftware mit Spracherkennung auf den Markt, aber auch Geräte für Sehbehinderte und Menschen, die aufgrund körperlicher Einschränkungen keine Computertastaturen benutzen konnten.

Im Jahr 1990 kostete eine Lizenz für DragonDictate, die erste "Sprachschreibmaschine", 9.000 US-Dollar.

Später in den 1990er Jahren wurden weitere sprachgesteuerte Interfaces eingeführt, um Geschäftsprozesse zu automatisieren. Das VAL-Portal von BellSouth beispielsweise bearbeitete Telefonanfragen und informierte Kunden über die Dienstleistungen des Unternehmens. Leider waren diese frühen Lösungen ungenau und erforderten langwierige Schulungen.

Ihr Wunsch ist mir Befehl

Im Laufe der Zeit wurde die Technologie immer weiter verbessert, und heute sind viele der "intelligenten" Geräte, die den Verbrauchern zur Verfügung stehen, mit Sprachschnittstellen ausgestattet. Die Hersteller von Technologieprodukten haben die Spracherkennung in ihre Geräte integriert, um ihren Kunden einen höheren Bedienungskomfort und eine freihändige Steuerung zu ermöglichen. Im Alltag ist Sprechen einfacher als Tippen - beim Autofahren, im Berufsverkehr oder vor dem Fernseher.

Susan Bennett ist eine Schauspielerin, die als die amerikanische Stimme von Siri bekannt ist.

Heutige Spracherkennungssysteme helfen uns, Informationen zu finden, Texte zu transkribieren und Termine zu vereinbaren. Sie werden in interaktiven Selbstbedienungssystemen eingesetzt, z. B. bei der technischen Unterstützung.

Wie funktioniert die Spracherkennung?

Geräte nehmen Sprache anders wahr als Menschen. Statt einzelner Wörter hört ein Gerät ein kontinuierliches Signal, bei dem die Töne fließend ineinander übergehen. Ein Gerät wird einen einzigen Satz, der mit unterschiedlicher Intonation oder von verschiedenen Sprechern gesprochen wird, als unterschiedliche Signale erkennen. Aufgrund der hohen Variabilität der menschlichen Sprache hat die Spracherkennungsgenauigkeit noch keine 100 % erreicht.

Die Hauptaufgabe der Spracherkennungsalgorithmen besteht darin, das Gesagte unabhängig von den Besonderheiten der Aussprache des Sprechers oder dem Vorhandensein von Hintergrundgeräuschen und anderen Störungen zu interpretieren.

Elemente eines Spracherkennungssystems

Spracherkennungssysteme bestehen aus vier Komponenten:

ein Schallreinigungsmodul (zur Entfernung von Hintergrundgeräuschen)
ein akustisches Modell (zur Unterscheidung der Sprachlaute)
ein Sprachmuster (zur Vorhersage der wahrscheinlichsten Wortfolgen)
einen Decoder (zur Kombination der vom akustischen Modell ausgegebenen Daten mit dem Sprachmuster, um das Endergebnis zu erhalten)

In jeder Phase durchläuft das akustische Signal eine Reihe von Umwandlungen. Im Folgenden können Sie mehr darüber lesen.

1. Geräuschbereinigung

Die erste Aufgabe eines Spracherkennungssystems besteht darin, die Qualität des Toneingangs zu bewerten und das gewünschte Signal von Störgeräuschen zu trennen. Je nach Art des Störgeräuschs können verschiedene Ansätze verwendet werden, um Sprache aus dem Grundrauschen zu filtern.

Geräuschunterdrückung

Es gibt mehrere Möglichkeiten, Geräusche in einem Spracherkennungssystem zu unterdrücken. Eine davon besteht darin, dem System künstliche Geräusche zuzuführen, z. B. Aufnahmen von gewöhnlichen, vom Menschen verursachten Geräuschen (z. B. das Geräusch eines Automotors, Wind oder Regen), um dem akustischen Modell beizubringen, Klänge von Hintergrundgeräuschen zu unterscheiden. Wenn das System jedoch später auf ungewohnte Geräusche stößt, wird das Modell wahrscheinlich eine "Fehlermeldung" senden.

Andere Ansätze zur Geräuschunterdrückung basieren auf Hardware-Lösungen. Einige Smartphones sind mit zwei Mikrofonen ausgestattet: Das erste Mikrofon auf der Vorderseite des Geräts fängt Sprache mit Störungen auf, während ein zweites Mikrofon auf der Rückseite Umgebungsgeräusche aufnimmt. Theoretisch muss man nur das zweite Tonsignal vom ersten subtrahieren, um ein klares Signal zu erhalten.

Stimmen im Hintergrund

Es ist schwieriger, eine bestimmte Stimme zu erkennen, wenn mehrere Personen gleichzeitig sprechen, als Sprache von Nicht-Sprachlauten zu unterscheiden. Um einen einzelnen Sprecher von anderen Stimmen zu isolieren, passt sich das akustische Modell an die Stimme des Nutzers an und merkt sich die Besonderheiten seiner Aussprache.

2. Unterteilung eines Sprachsignals in Wörter

Die nächste Aufgabe eines Spracherkennungssystems besteht darin, einzelne Wörter aus einem kontinuierlichen Klangstrom herauszufiltern und ihre Bedeutung zu bestimmen.

Auf der grundlegendsten Ebene kann Sprache als ein Wechselspiel von Lauten und Pausen betrachtet werden. Die Pausen können als "Worttrenner" verstanden werden.

Ihr Wunsch ist mir Befehl

Um ein Sprachsignal in Bezug auf Wörter und Worttrenner zu analysieren, wird eine Audioaufnahme zunächst in Frames unterteilt, d. h. in kleine Abschnitte von etwa 10 ms Länge. Diese Frames sind nicht streng aufeinanderfolgend: Das Ende eines Abschnitts überlagert den Anfang eines anderen.

Um festzustellen, welche der Frames menschliche Stimmen enthalten, legt das System einen Grenzwert fest. Werte oberhalb des Grenzwertes werden als Wörter betrachtet, während Werte unterhalb als Stille verstanden werden. Für die Festlegung des Grenzwerts gibt es mehrere Optionen:

Einstellung als Konstante (diese Konstante kann verwendet werden, wenn der Ton auf dieselbe Weise und unter denselben Bedingungen erzeugt wird).
Festlegung einer Anzahl von Werten, die der Stille entsprechen (wenn die Stille einen großen Teil der Aufnahme einnimmt).
Durchführung einer Entropie-Analyse (dazu muss bestimmt werden, wie stark das Signal innerhalb eines bestimmten Rahmens "schwingt". Die Amplitude der Oszillationen für stille Teile einer Aufnahme ist normalerweise geringer).

Die Entropieanalyse gilt als die zuverlässigste der drei Methoden, auch wenn sie ihre Schwächen hat. So kann die Entropie beispielsweise abnehmen, wenn Vokale gedehnt werden, oder bei leichtem Rauschen zunehmen. Um dieses Problem zu lösen, werden zwei Konzepte eingeführt: ein "Mindestabstand zwischen Wörtern" und eine "Mindestwortlänge". Der Algorithmus fasst zu kurze Fragmente zusammen und unterdrückt Rauschen.

3. Interpretation von Wörtern

Meistens werden neuronale Netze in Verbindung mit einem Apparat, der versteckte Markov-Modelle enthält, zur Interpretation von Wörtern verwendet.

Versteckte Markov-Modelle

Bei der Untersuchung literarischer Texte des frühen 20. Jahrhunderts ging der Mathematiker Andrej Markow zunächst davon aus, dass die Wahrscheinlichkeit des Auftretens eines Buchstabens vom vorhergehenden Buchstaben abhängt. Es stellte sich heraus, dass dieser Wert in verschiedenen Teilen desselben Textes konstant blieb.

Die Wahrscheinlichkeitsindikatoren sind für jeden Autor einzigartig. Dies ermöglicht die Verwendung von Markov-Modellen zur Erkennung von Plagiaten.

In Markov-Modellen besteht gedruckter Text aus einer Folge von Zeichen, während Sprache als eine Folge von Lauten (Phonemen) behandelt wird. Während im geschriebenen Text alle Symbole bekannt sind, enthalten Sprachaufnahmen die Manifestation von Phonemen und nicht die Phoneme selbst (zum Beispiel gibt es mehrere Möglichkeiten, den Laut "R" auszusprechen).

Das Gerät weiß nicht, welches Phonem ausgesprochen wurde; es nimmt nur die Parameter der Schallwelle zu einem bestimmten Zeitpunkt wahr. Das System muss nicht nur die Wahrscheinlichkeit des Auftretens eines bestimmten Phonems abschätzen, sondern auch die Phoneme den entsprechenden Signalvarianten zuordnen.

Vorwärtsgerichtete neuronale Netze

Bis vor kurzem wurden in der Spracherkennung meist selbstlernende neuronale Netze mit zahlreichen Schichten verwendet.

Ihr Wunsch ist mir Befehl

Diese Netze verarbeiten Informationen nur in einer Richtung, nämlich von den Eingangsneuronen zu den Ausgangsneuronen.
Mehrere Schichten von Neuronen sind hierarchisch zwischen dem Eingang und dem Ausgang angeordnet, wobei die Parameter einer höheren Ebene aus den Parametern einer niedrigeren Ebene folgen.
Selbstlernen oder unüberwachtes Lernen bedeutet, dass das neuronale Netz lernt, Probleme ohne Eingreifen von außen zu lösen. Der Ansatz offenbart verborgene Muster zwischen den Objekten der Trainingsstichprobe.

Das Resultat, das eine Reihe von Wahrscheinlichkeiten für das Auftreten eines bestimmten Phonems darstellt, wird mit der Vorhersage des Markov-Modells verglichen. Ein ausgesprochener Laut wird relativ genau bestimmt.

Rekurrente neuronale Netzwerke

Spracherkennungssysteme entfernen sich allmählich von der Verwendung vereinfachter versteckter Markov-Modelle. Akustische Modelle werden zunehmend auf rekurrenten neuronalen Netzen aufgebaut, bei denen interner Speicher und Backpropagation für eine effizientere Erkennung verwendet werden.

Die Neuronen erhalten nicht nur Informationen von der vorherigen Schicht, sondern senden auch die Ergebnisse ihrer eigenen Verarbeitung an sich selbst. Dadurch kann die Reihenfolge des Auftretens der Daten berücksichtigt werden.

Ihr Wunsch ist mir Befehl

4. Wortwahl

Das Prinzip der Unterscheidung von Phrasen und Sätzen ist dem der Wortdekodierung sehr ähnlich.

Bisher wurden für diese Aufgabe Modelle vom Typ N-Gramm verwendet, bei denen die Wahrscheinlichkeit des Auftretens eines Wortes in Abhängigkeit von N vorangegangenen Wörtern (in der Regel N = 3) auf der Grundlage der Analyse großer Textblöcke bestimmt wurde.

Deep Learning und die Entwicklung rekurrenter neuronaler Netze verbesserten das linguistische Modell erheblich und ermöglichten es, den Kontext des Gesagten zu berücksichtigen. Die Einschränkung, dass nur N vorherige Wörter verwendet werden dürfen, entfiel ebenfalls.

Die linguistischen Modelle waren nun in der Lage, die aus verschiedenen Gründen verpassten oder nicht erkannten Wörter zu erraten. Dies erwies sich als besonders wichtig für Sprachen mit zufälliger Wortfolge wie Russisch, bei denen nicht nur die vorangegangenen Wörter wichtig sind, sondern der gesamte Satz.

So funktionieren die meisten Spracherkennungssysteme. Es reicht jedoch nicht aus, zu verstehen, was gesagt wurde. Um von Nutzen zu sein, muss das System auch in der Lage sein, auf eingehende Befehle zu reagieren: Es muss Fragen beantworten, Anwendungen öffnen und andere Funktionen verwalten. Für diese Aufgaben sind Sprachassistenten zuständig.

Spracherkennung in MAG425A

Die MAG425A ist mit einer sprachgesteuerten Fernbedienung und Google Assistant ausgestattet. Die Sprachschnittstelle bietet ein völlig neues Benutzererlebnis.

Zu den wichtigsten Funktionen des Sprachassistenten gehören

Unterstützung der Nutzer bei der Suche nach interessanten Inhalten
Beantwortung von Fragen (z. B. zum Wetter und zu Staus)
Steuerung der Wiedergabe (Einschalten von Fernsehsendungen, Regelung der Lautstärke)
Steuerung von Peripheriegeräten

Was ist Google Assistant?

Google Assistant ist ein virtueller Sprachassistent, der erstmals auf der Google I/O 2016 Konferenz in Kalifornien vorgestellt wurde. Wie Apples Siri, Amazons Alexa und Microsofts Cortana liefert die Anwendung auf Anfrage des Nutzers kontextbezogene Informationen und kann bestimmte Aktionen ausführen (z. B. Suchanfragen eingeben, Erinnerungen einstellen, Anwendungen öffnen und die Wiedergabe steuern).

Google Assistant nutzt computergestütztes Lernen und die Technologie der natürlichen Sprachverarbeitung (NLP). Das System ist in der Lage, Klänge, Wörter und Ideen in der Sprache zu erkennen.

Der Assistant funktioniert auf einer Milliarde Geräten und unterstützt über dreißig Sprachen, aber die Android-TV-Version spricht bisher nur zwölf Sprachen: Englisch, Französisch, Deutsch, Hindi, Indonesisch, Italienisch, Japanisch, Koreanisch, Portugiesisch, Spanisch, Schwedisch und Vietnamesisch.

Ihr Wunsch ist mir Befehl

Wie funktioniert der Google Assistant?

Zunächst zeichnet die Anwendung die von ihr erkannte Sprache auf. Die Interpretation von Sprache erfordert viel Rechenleistung, daher sendet Google Assistant Anfragen an Google-Datenzentren. Wenn die Tondaten eines dieser Zentren erreichen, wird das solide Signal in Klänge unterteilt. Der Algorithmus von Google Assistant durchsucht eine Datenbank mit Sprachklängen und bestimmt, welche Wörter am besten zu der aufgezeichneten Klangkombination passen.

Das System wählt dann die "wichtigsten" Wörter aus der Aussage des Nutzers aus und entscheidet, wie es darauf reagieren soll. Wenn Google Assistant zum Beispiel Wörter wie "Wetter" und "heute" erkennt, antwortet es mit der heutigen Wettervorhersage.

Die Google-Server senden die Informationen zurück an das Gerät, und die Google Assistant-App führt die gewünschte Aktion aus oder antwortet mit einer Stimme.

Google ändert die Funktionsweise des Google Assistant so, dass Sprache erkannt und Befehle direkt auf dem Gerät des Nutzers verarbeitet werden. Unter Nutzung der Fähigkeiten rekurrenter neuronaler Netze hat das Unternehmen ein neues Modell für die Spracherkennung und das Sprachverständnis entwickelt. Die Größe der Datenbank der akustischen Modelle wurde um das Hundertfache reduziert, sodass die künstliche Intelligenz von Assistant bereits lokal arbeiten kann. Die Anwendung verarbeitet Sprache in Echtzeit und fast ohne Verzögerung, auch ohne Internetzugang.

Der Google Assistant der neuen Generation antwortet fast zehnmal schneller auf eine Anfrage. Seit 2019 unterstützen die neuen Pixel-Smartphone-Modelle von Google den Google Assistant. In Zukunft wird die App auch auf anderen Geräten verfügbar sein.

Die Sprachschnittstelle von Android TV ist heute nicht nur für Unternehmen mit Millionenbudgets verfügbar, sondern auch für lokale IPTV/OTT-Betreiber. Dies ist eine große Chance für die Betreiber, neue Zielgruppen zu gewinnen, die Suche nach Inhalten und den Zugang zu Diensten für die Nutzer einfacher und bequemer zu gestalten und sich so von der Konkurrenz abzuheben.

*Google und Android TV sind Marken von Google LLC.

Künstliche Intelligenz im IPTV: Verbesserung der Personalisierung und Benutzererfahrung

Moderne KI-Algorithmen und Methoden des maschinellen Lernens ermöglichen es IPTV-Anbietern, umfangreiche Daten in Echtzeit zu sammeln und zu analysieren, um tiefgehende Einblicke in ihr Publikum zu gewinnen.

Digitalfernsehen und IPTV: Welche Abonnements und Tarife eignen sich für verschiedene Zielgruppen?

In einem zunehmend wettbewerbsintensiven Markt für digitales Fernsehen ist die Gestaltung gut strukturierter und attraktiver Tarifpläne entscheidend für die Gewinnung und Bindung von Abonnentinnen und Abonnenten. IPTV-Anbieter müssen ihre Preisstrategien und Servicepakete gezielt auf unterschiedliche Kundengruppen ausrichten und dabei Flexibilität, Erschwinglichkeit und Kundenzufriedenheit sicherstellen. Dieser Artikel beleuchtet verschiedene Abonnementmodelle, ihre Vorteile und Best Practices zur Gestaltung von IPTV-Tarifplänen, um Einnahmen zu maximieren und die Benutzerzufriedenheit zu steigern.

Gamification im IPTV: Wie man Zuschauer anzieht und bindet

Die Entwicklung des interaktiven Fernsehens (IPTV) hat die Art und Weise, wie Dienstanbieter Kunden gewinnen und binden, grundlegend verändert. Angesichts der Konkurrenz durch Over-the-Top-Dienste, traditionelles Kabelfernsehen und andere digitale Plattformen stehen Betreiber vor der Herausforderung, die Aufmerksamkeit der Abonnenten inmitten sich wandelnder Konsumgewohnheiten, wettbewerbsfähiger Preise und einer Übersättigung an Inhalten zu gewinnen und zu halten. Eine der effektivsten Lösungen für dieses Problem ist die Gamification – der Einsatz von Spielelementen und -prinzipien in nicht spielbezogenen Kontexten. Durch die Integration von Gamification in eine IPTV-Plattform können Betreiber die Nutzerbindung erhöhen, die Markentreue stärken und sich in einem extrem wettbewerbsintensiven Markt differenzieren. Dieser Artikel untersucht das Potenzial von Gamification im IPTV-Bereich, analysiert Strategien und Vorteile und gibt Empfehlungen für eine erfolgreiche Implementierung.

Subscribe now

Product request

You are looking for a solution:

What products are you interested in?

Confirm the details

What products are you interested in?

Thank you
Your message has been sent.

Confirm the details

What products are you interested in?

Thank you!
Your message has been sent.

Ihr Wunsch ist mir Befehl

1. Geräuschbereinigung

2. Unterteilung eines Sprachsignals in Wörter

3. Interpretation von Wörtern

4. Wortwahl

Spracherkennung in MAG425A

*Google und Android TV sind Marken von Google LLC.

Recommended

Künstliche Intelligenz im IPTV: Verbesserung der Personalisierung und Benutzererfahrung

Digitalfernsehen und IPTV: Welche Abonnements und Tarife eignen sich für verschiedene Zielgruppen?

Gamification im IPTV: Wie man Zuschauer anzieht und bindet

Product request

You are looking for a solution:

What products are you interested in?

Confirm the details

What products are you interested in?

Thank youYour message has been sent.

Confirm the details

What products are you interested in?

Thank you! Your message has been sent.

Ihr Wunsch ist mir Befehl

1. Geräuschbereinigung

2. Unterteilung eines Sprachsignals in Wörter

3. Interpretation von Wörtern

4. Wortwahl

Spracherkennung in MAG425A

*Google und Android TV sind Marken von Google LLC.

Recommended

Künstliche Intelligenz im IPTV: Verbesserung der Personalisierung und Benutzererfahrung

Digitalfernsehen und IPTV: Welche Abonnements und Tarife eignen sich für verschiedene Zielgruppen?

Gamification im IPTV: Wie man Zuschauer anzieht und bindet

Thank you
Your message has been sent.

Thank you!
Your message has been sent.