Geschäftsangebot

Product request

You are looking for a solution:

Select an option, and we will develop the best offer
for you

Your regional manager will answer you

Please select the destination country to continue.

What products are you interested in?

Please select one of the options to continue

Please select the products to continue.

In our response, we want to address you by name

Please fill in the field to continue.

No ads. Our manager will use this email address to contact you

Please fill in the field to continue.

Enter the phone number and the manager will contact you

Please enter your phone number to continue.

Select a business field, and we will develop the best offer for you

Please choose a business field to continue.

Enter your company’s legal name

Please indicate your company name to continue.

Tell us about your project

Please Tell us about your project to continue.

0 / 800

Confirm the details

What products are you interested in?

Select an option, and we will develop the best offer for you

Please select one of the options to continue.

In our response, we want to address you by name

Please fill in the field to continue.

No ads. Our manager will use this email address to contact you

Please fill in the field to continue.

Enter the phone number and the manager will contact you

Please enter your phone number to continue.

Select a business field, and we will develop the best offer for you

Please choose a business field to continue.

Enter your company’s legal name

Please indicate your company name to continue.

Your regional manager will answer you

Please select the destination country to continue.

Tell us about your project

Please tell us about your project to continue.

By clicking on 'Submit', you confirm that you have read, understood, and accept our privacy policy.

Thank you
Your message has been sent.

Our manager will contact you as soon as possible.

  • US North America
  • EU Europe
  • MENA Middle East, Africa and Australia

No ads. We will use this address to contact you

Please fill in the field to continue.

Confirm the details

What products are you interested in?

Select an option, and we will develop the best offer for you

Please select the products to continue.

No ads. Our manager will use this email address to contact you.

Please fill in the field to continue.

We will provide information for your quantity

Please fill in the field to continue.

We will provide information for your region

Please select the country to continue.

By clicking on 'Submit', you confirm that you have read, understood, and accept our privacy policy.

Thank you!
Your message has been sent.

Your request will be processed shortly.

Ihr Wunsch ist mir Befehl

Ihr Wunsch ist mir Befehl

 

 Ihr Wunsch ist mir Befehl

Noch vor 31 Jahren war ein Fernseher, der im Film Zurück in die Zukunft, Teil II auf Sprachbefehle reagierte, eine ebenso fantastische Idee wie ein fliegendes Auto. Heute hat fast jeder Zugang zu Geräten mit Sprachsteuerung. In diesem Artikel erklären wir, wie Spracherkennung funktioniert und zeigen Ihnen am Beispiel von Google Assistant, wie Sprachassistenten eingesetzt werden.

 

 

Frühe Experimente zur Spracherkennung

 Ihr Wunsch ist mir Befehl

Überraschenderweise war das erste Heimprodukt mit Sprachschnittstelle (VI) ein Spielzeug. Im Jahr 1987 kam die Puppe Julie auf den Markt, die darauf programmiert werden konnte, die Sprache von Kindern zu erkennen. Julie reagierte auf Reize wie das Ausschalten des Lichts und las aus den mitgelieferten Büchern vor.

 

Einige Jahre später kam die erste Diktiersoftware mit Spracherkennung auf den Markt, aber auch Geräte für Sehbehinderte und Menschen, die aufgrund körperlicher Einschränkungen keine Computertastaturen benutzen konnten.

 

Im Jahr 1990 kostete eine Lizenz für DragonDictate, die erste "Sprachschreibmaschine", 9.000 US-Dollar.

 

Später in den 1990er Jahren wurden weitere sprachgesteuerte Interfaces eingeführt, um Geschäftsprozesse zu automatisieren. Das VAL-Portal von BellSouth beispielsweise bearbeitete Telefonanfragen und informierte Kunden über die Dienstleistungen des Unternehmens. Leider waren diese frühen Lösungen ungenau und erforderten langwierige Schulungen.

 

 Ihr Wunsch ist mir Befehl

Im Laufe der Zeit wurde die Technologie immer weiter verbessert, und heute sind viele der "intelligenten" Geräte, die den Verbrauchern zur Verfügung stehen, mit Sprachschnittstellen ausgestattet. Die Hersteller von Technologieprodukten haben die Spracherkennung in ihre Geräte integriert, um ihren Kunden einen höheren Bedienungskomfort und eine freihändige Steuerung zu ermöglichen. Im Alltag ist Sprechen einfacher als Tippen - beim Autofahren, im Berufsverkehr oder vor dem Fernseher.

              Susan Bennett ist eine Schauspielerin, die als die amerikanische Stimme von Siri bekannt ist.

 

 

Heutige Spracherkennungssysteme helfen uns, Informationen zu finden, Texte zu transkribieren und Termine zu vereinbaren. Sie werden in interaktiven Selbstbedienungssystemen eingesetzt, z. B. bei der technischen Unterstützung.

 

Wie funktioniert die Spracherkennung?

Geräte nehmen Sprache anders wahr als Menschen. Statt einzelner Wörter hört ein Gerät ein kontinuierliches Signal, bei dem die Töne fließend ineinander übergehen. Ein Gerät wird einen einzigen Satz, der mit unterschiedlicher Intonation oder von verschiedenen Sprechern gesprochen wird, als unterschiedliche Signale erkennen. Aufgrund der hohen Variabilität der menschlichen Sprache hat die Spracherkennungsgenauigkeit noch keine 100 % erreicht.


Die Hauptaufgabe der Spracherkennungsalgorithmen besteht darin, das Gesagte unabhängig von den Besonderheiten der Aussprache des Sprechers oder dem Vorhandensein von Hintergrundgeräuschen und anderen Störungen zu interpretieren.

Ihr Wunsch ist mir Befehl


Elemente eines Spracherkennungssystems

 

Spracherkennungssysteme bestehen aus vier Komponenten:

  • ein Schallreinigungsmodul (zur Entfernung von Hintergrundgeräuschen)
  • ein akustisches Modell (zur Unterscheidung der Sprachlaute)
  • ein Sprachmuster (zur Vorhersage der wahrscheinlichsten Wortfolgen)
  • einen Decoder (zur Kombination der vom akustischen Modell ausgegebenen Daten mit dem Sprachmuster, um das Endergebnis zu erhalten)

 

In jeder Phase durchläuft das akustische Signal eine Reihe von Umwandlungen. Im Folgenden können Sie mehr darüber lesen.

 

1. Geräuschbereinigung

Die erste Aufgabe eines Spracherkennungssystems besteht darin, die Qualität des Toneingangs zu bewerten und das gewünschte Signal von Störgeräuschen zu trennen. Je nach Art des Störgeräuschs können verschiedene Ansätze verwendet werden, um Sprache aus dem Grundrauschen zu filtern.

 

Geräuschunterdrückung

Es gibt mehrere Möglichkeiten, Geräusche in einem Spracherkennungssystem zu unterdrücken. Eine davon besteht darin, dem System künstliche Geräusche zuzuführen, z. B. Aufnahmen von gewöhnlichen, vom Menschen verursachten Geräuschen (z. B. das Geräusch eines Automotors, Wind oder Regen), um dem akustischen Modell beizubringen, Klänge von Hintergrundgeräuschen zu unterscheiden. Wenn das System jedoch später auf ungewohnte Geräusche stößt, wird das Modell wahrscheinlich eine "Fehlermeldung" senden.


Andere Ansätze zur Geräuschunterdrückung basieren auf Hardware-Lösungen. Einige Smartphones sind mit zwei Mikrofonen ausgestattet: Das erste Mikrofon auf der Vorderseite des Geräts fängt Sprache mit Störungen auf, während ein zweites Mikrofon auf der Rückseite Umgebungsgeräusche aufnimmt. Theoretisch muss man nur das zweite Tonsignal vom ersten subtrahieren, um ein klares Signal zu erhalten.

 

Stimmen im Hintergrund

Es ist schwieriger, eine bestimmte Stimme zu erkennen, wenn mehrere Personen gleichzeitig sprechen, als Sprache von Nicht-Sprachlauten zu unterscheiden. Um einen einzelnen Sprecher von anderen Stimmen zu isolieren, passt sich das akustische Modell an die Stimme des Nutzers an und merkt sich die Besonderheiten seiner Aussprache.

 

2. Unterteilung eines Sprachsignals in Wörter

Die nächste Aufgabe eines Spracherkennungssystems besteht darin, einzelne Wörter aus einem kontinuierlichen Klangstrom herauszufiltern und ihre Bedeutung zu bestimmen.

 

Auf der grundlegendsten Ebene kann Sprache als ein Wechselspiel von Lauten und Pausen betrachtet werden. Die Pausen können als "Worttrenner" verstanden werden.

 

Ihr Wunsch ist mir Befehl

 

Um ein Sprachsignal in Bezug auf Wörter und Worttrenner zu analysieren, wird eine Audioaufnahme zunächst in Frames unterteilt, d. h. in kleine Abschnitte von etwa 10 ms Länge. Diese Frames sind nicht streng aufeinanderfolgend: Das Ende eines Abschnitts überlagert den Anfang eines anderen.

 

Um festzustellen, welche der Frames menschliche Stimmen enthalten, legt das System einen Grenzwert fest. Werte oberhalb des Grenzwertes werden als Wörter betrachtet, während Werte unterhalb als Stille verstanden werden. Für die Festlegung des Grenzwerts gibt es mehrere Optionen:

  • Einstellung als Konstante (diese Konstante kann verwendet werden, wenn der Ton auf dieselbe Weise und unter denselben Bedingungen erzeugt wird).
  • Festlegung einer Anzahl von Werten, die der Stille entsprechen (wenn die Stille einen großen Teil der Aufnahme einnimmt).
  • Durchführung einer Entropie-Analyse (dazu muss bestimmt werden, wie stark das Signal innerhalb eines bestimmten Rahmens "schwingt". Die Amplitude der Oszillationen für stille Teile einer Aufnahme ist normalerweise geringer).

 

Die Entropieanalyse gilt als die zuverlässigste der drei Methoden, auch wenn sie ihre Schwächen hat. So kann die Entropie beispielsweise abnehmen, wenn Vokale gedehnt werden, oder bei leichtem Rauschen zunehmen. Um dieses Problem zu lösen, werden zwei Konzepte eingeführt: ein "Mindestabstand zwischen Wörtern" und eine "Mindestwortlänge". Der Algorithmus fasst zu kurze Fragmente zusammen und unterdrückt Rauschen.

 

3. Interpretation von Wörtern

 Ihr Wunsch ist mir Befehl

Meistens werden neuronale Netze in Verbindung mit einem Apparat, der versteckte Markov-Modelle enthält, zur Interpretation von Wörtern verwendet.

Versteckte Markov-Modelle

Bei der Untersuchung literarischer Texte des frühen 20. Jahrhunderts ging der Mathematiker Andrej Markow zunächst davon aus, dass die Wahrscheinlichkeit des Auftretens eines Buchstabens vom vorhergehenden Buchstaben abhängt. Es stellte sich heraus, dass dieser Wert in verschiedenen Teilen desselben Textes konstant blieb.

Ihr Wunsch ist mir Befehl


Die Wahrscheinlichkeitsindikatoren sind für jeden Autor einzigartig. Dies ermöglicht die Verwendung von Markov-Modellen zur Erkennung von Plagiaten.

 

In Markov-Modellen besteht gedruckter Text aus einer Folge von Zeichen, während Sprache als eine Folge von Lauten (Phonemen) behandelt wird. Während im geschriebenen Text alle Symbole bekannt sind, enthalten Sprachaufnahmen die Manifestation von Phonemen und nicht die Phoneme selbst (zum Beispiel gibt es mehrere Möglichkeiten, den Laut "R" auszusprechen).


Das Gerät weiß nicht, welches Phonem ausgesprochen wurde; es nimmt nur die Parameter der Schallwelle zu einem bestimmten Zeitpunkt wahr. Das System muss nicht nur die Wahrscheinlichkeit des Auftretens eines bestimmten Phonems abschätzen, sondern auch die Phoneme den entsprechenden Signalvarianten zuordnen.

 

Vorwärtsgerichtete neuronale Netze

Bis vor kurzem wurden in der Spracherkennung meist selbstlernende neuronale Netze mit zahlreichen Schichten verwendet.

 

Ihr Wunsch ist mir Befehl

 

  • Diese Netze verarbeiten Informationen nur in einer Richtung, nämlich von den Eingangsneuronen zu den Ausgangsneuronen.
  • Mehrere Schichten von Neuronen sind hierarchisch zwischen dem Eingang und dem Ausgang angeordnet, wobei die Parameter einer höheren Ebene aus den Parametern einer niedrigeren Ebene folgen.
  • Selbstlernen oder unüberwachtes Lernen bedeutet, dass das neuronale Netz lernt, Probleme ohne Eingreifen von außen zu lösen. Der Ansatz offenbart verborgene Muster zwischen den Objekten der Trainingsstichprobe.

Das Resultat, das eine Reihe von Wahrscheinlichkeiten für das Auftreten eines bestimmten Phonems darstellt, wird mit der Vorhersage des Markov-Modells verglichen. Ein ausgesprochener Laut wird relativ genau bestimmt.

 

Rekurrente neuronale Netzwerke

Spracherkennungssysteme entfernen sich allmählich von der Verwendung vereinfachter versteckter Markov-Modelle. Akustische Modelle werden zunehmend auf rekurrenten neuronalen Netzen aufgebaut, bei denen interner Speicher und Backpropagation für eine effizientere Erkennung verwendet werden.


Die Neuronen erhalten nicht nur Informationen von der vorherigen Schicht, sondern senden auch die Ergebnisse ihrer eigenen Verarbeitung an sich selbst. Dadurch kann die Reihenfolge des Auftretens der Daten berücksichtigt werden.

 

Ihr Wunsch ist mir Befehl

 

 

4. Wortwahl

Das Prinzip der Unterscheidung von Phrasen und Sätzen ist dem der Wortdekodierung sehr ähnlich.


Bisher wurden für diese Aufgabe Modelle vom Typ N-Gramm verwendet, bei denen die Wahrscheinlichkeit des Auftretens eines Wortes in Abhängigkeit von N vorangegangenen Wörtern (in der Regel N = 3) auf der Grundlage der Analyse großer Textblöcke bestimmt wurde.

Ihr Wunsch ist mir Befehl

Deep Learning und die Entwicklung rekurrenter neuronaler Netze verbesserten das linguistische Modell erheblich und ermöglichten es, den Kontext des Gesagten zu berücksichtigen. Die Einschränkung, dass nur N vorherige Wörter verwendet werden dürfen, entfiel ebenfalls.


Die linguistischen Modelle waren nun in der Lage, die aus verschiedenen Gründen verpassten oder nicht erkannten Wörter zu erraten. Dies erwies sich als besonders wichtig für Sprachen mit zufälliger Wortfolge wie Russisch, bei denen nicht nur die vorangegangenen Wörter wichtig sind, sondern der gesamte Satz.

 

So funktionieren die meisten Spracherkennungssysteme. Es reicht jedoch nicht aus, zu verstehen, was gesagt wurde. Um von Nutzen zu sein, muss das System auch in der Lage sein, auf eingehende Befehle zu reagieren: Es muss Fragen beantworten, Anwendungen öffnen und andere Funktionen verwalten. Für diese Aufgaben sind Sprachassistenten zuständig.

 

Spracherkennung in MAG425A

 Ihr Wunsch ist mir Befehl

Die MAG425A ist mit einer sprachgesteuerten Fernbedienung und Google Assistant ausgestattet. Die Sprachschnittstelle bietet ein völlig neues Benutzererlebnis.

Zu den wichtigsten Funktionen des Sprachassistenten gehören

  • Unterstützung der Nutzer bei der Suche nach interessanten Inhalten
  • Beantwortung von Fragen (z. B. zum Wetter und zu Staus)
  • Steuerung der Wiedergabe (Einschalten von Fernsehsendungen, Regelung der Lautstärke)
  • Steuerung von Peripheriegeräten

 

Was ist Google Assistant?

Google Assistant ist ein virtueller Sprachassistent, der erstmals auf der Google I/O 2016 Konferenz in Kalifornien vorgestellt wurde. Wie Apples Siri, Amazons Alexa und Microsofts Cortana liefert die Anwendung auf Anfrage des Nutzers kontextbezogene Informationen und kann bestimmte Aktionen ausführen (z. B. Suchanfragen eingeben, Erinnerungen einstellen, Anwendungen öffnen und die Wiedergabe steuern).


Google Assistant nutzt computergestütztes Lernen und die Technologie der natürlichen Sprachverarbeitung (NLP). Das System ist in der Lage, Klänge, Wörter und Ideen in der Sprache zu erkennen.


Der Assistant funktioniert auf einer Milliarde Geräten und unterstützt über dreißig Sprachen, aber die Android-TV-Version spricht bisher nur zwölf Sprachen: Englisch, Französisch, Deutsch, Hindi, Indonesisch, Italienisch, Japanisch, Koreanisch, Portugiesisch, Spanisch, Schwedisch und Vietnamesisch.

Ihr Wunsch ist mir Befehl

 

Wie funktioniert der Google Assistant?

Zunächst zeichnet die Anwendung die von ihr erkannte Sprache auf. Die Interpretation von Sprache erfordert viel Rechenleistung, daher sendet Google Assistant Anfragen an Google-Datenzentren. Wenn die Tondaten eines dieser Zentren erreichen, wird das solide Signal in Klänge unterteilt. Der Algorithmus von Google Assistant durchsucht eine Datenbank mit Sprachklängen und bestimmt, welche Wörter am besten zu der aufgezeichneten Klangkombination passen.


Das System wählt dann die "wichtigsten" Wörter aus der Aussage des Nutzers aus und entscheidet, wie es darauf reagieren soll. Wenn Google Assistant zum Beispiel Wörter wie "Wetter" und "heute" erkennt, antwortet es mit der heutigen Wettervorhersage.

 

 Ihr Wunsch ist mir Befehl

Die Google-Server senden die Informationen zurück an das Gerät, und die Google Assistant-App führt die gewünschte Aktion aus oder antwortet mit einer Stimme.

Google ändert die Funktionsweise des Google Assistant so, dass Sprache erkannt und Befehle direkt auf dem Gerät des Nutzers verarbeitet werden. Unter Nutzung der Fähigkeiten rekurrenter neuronaler Netze hat das Unternehmen ein neues Modell für die Spracherkennung und das Sprachverständnis entwickelt. Die Größe der Datenbank der akustischen Modelle wurde um das Hundertfache reduziert, sodass die künstliche Intelligenz von Assistant bereits lokal arbeiten kann. Die Anwendung verarbeitet Sprache in Echtzeit und fast ohne Verzögerung, auch ohne Internetzugang.

Ihr Wunsch ist mir Befehl

Der Google Assistant der neuen Generation antwortet fast zehnmal schneller auf eine Anfrage. Seit 2019 unterstützen die neuen Pixel-Smartphone-Modelle von Google den Google Assistant. In Zukunft wird die App auch auf anderen Geräten verfügbar sein.

 

Die Sprachschnittstelle von Android TV ist heute nicht nur für Unternehmen mit Millionenbudgets verfügbar, sondern auch für lokale IPTV/OTT-Betreiber. Dies ist eine große Chance für die Betreiber, neue Zielgruppen zu gewinnen, die Suche nach Inhalten und den Zugang zu Diensten für die Nutzer einfacher und bequemer zu gestalten und sich so von der Konkurrenz abzuheben.

*Google und Android TV sind Marken von Google LLC.
 

Recommended

Ihr Wunsch ist mir Befehl

Zukunftssicheres IPTV mit RDK: bequeme Plattform für Betreiber

Jedes Jahr erreichen Telekommunikationstechnologien ein neues Niveau und bieten Betreibern effektive Lösungen und TV-Fortschritte. In diesem Artikel konzentrieren wir uns auf eine dieser Weiterentwicklungen - die RDK-Technologie. Wir werden erklären, warum Hunderte von Betreibern diese Lösung wählen und sie als so wertvoll empfinden.

Ihr Wunsch ist mir Befehl

Ministra PRO: Updates im Juli

Die Ferienzeit ist in vollem Gange, und auch wir bereiten uns auf den Urlaub vor, weshalb die Juli-Ausgabe kurz ausfallen wird. Wir haben alle wichtigen Aktualisierungen für dieses Jahr zusammengetragen, damit Sie sie in Ruhe durchlesen können, während Sie sich am Pool entspannen..

Ihr Wunsch ist mir Befehl

Aufbau eines IPTV- Unternehmens im Ausland

Bei der Einführung eines IPTV/OTT-Dienstes versuchen lokale Betreiber, ein möglichst großes Publikum zu erreichen, übersehen dabei aber oft eine der freien Nischen potenzieller Kunden - die Kunden im Ausland