Proposition commerciale

Product request

You are looking for a solution:

Select an option, and we will develop the best offer
for you

Your regional manager will answer you

Please select the destination country to continue.

What products are you interested in?

Please select one of the options to continue

Please select the products to continue.

In our response, we want to address you by name

Please fill in the field to continue.

No ads. Our manager will use this email address to contact you

Please fill in the field to continue.

Enter the phone number and the manager will contact you

Please enter your phone number to continue.

Select a business field, and we will develop the best offer for you

Please choose a business field to continue.

Enter your company’s legal name

Please indicate your company name to continue.

Tell us about your project

Please Tell us about your project to continue.

0 / 800

Confirm the details

What products are you interested in?

Select an option, and we will develop the best offer for you

Please select one of the options to continue.

In our response, we want to address you by name

Please fill in the field to continue.

No ads. Our manager will use this email address to contact you

Please fill in the field to continue.

Enter the phone number and the manager will contact you

Please enter your phone number to continue.

Select a business field, and we will develop the best offer for you

Please choose a business field to continue.

Enter your company’s legal name

Please indicate your company name to continue.

Your regional manager will answer you

Please select the destination country to continue.

Tell us about your project

Please tell us about your project to continue.

By clicking on 'Submit', you confirm that you have read, understood, and accept our privacy policy.

Thank you
Your message has been sent.

Our manager will contact you as soon as possible.

  • US North America
  • EU Europe
  • MENA Middle East, Africa and Australia

No ads. We will use this address to contact you

Please fill in the field to continue.

Confirm the details

What products are you interested in?

Select an option, and we will develop the best offer for you

Please select the products to continue.

No ads. Our manager will use this email address to contact you.

Please fill in the field to continue.

We will provide information for your quantity

Please fill in the field to continue.

We will provide information for your region

Please select the country to continue.

By clicking on 'Submit', you confirm that you have read, understood, and accept our privacy policy.

Thank you!
Your message has been sent.

Your request will be processed shortly.

Vos désirs sont des ordres

Vos désirs sont des ordres

 

 Vos désirs sont des ordres

Il y a 31 ans, lors de la sortie du film Retour vers le futur 2, un téléviseur capable de répondre aux commandes vocales apparaissait aussi futuriste qu'une voiture volante. Aujourd’hui, la plupart des personnes ont toutefois accès à des appareils dotés d'interfaces utilisateurs vocales. Dans cet article, nous allons vous expliquer comment fonctionne la reconnaissance vocale et étudier plus en détail le fonctionnement des assistants vocaux, en prenant l'exemple de l'assistant Google.

 

 

Les premières innovations en matière d'interface utilisateur vocale

 Vos désirs sont des ordres

Cela peut sembler surprenant, mais le premier produit domestique doté d'une interface utilisateur vocale (VUI) était un simple jouet. La poupée Julie, ayant été mise sur le marché en 1987, pouvait ainsi apprendre à reconnaître le langage des enfants. Julie était capable de réagir à différents stimuli, tels que l'extinction de la lumière et pouvait réciter à voix haute les livres proposés avec le jouet.

 

Les années suivantes ont été marquées par l’apparition des premiers logiciels de dictée à reconnaissance vocale, en complément des dispositifs destinés aux malvoyants et aux personnes ne pouvant pas utiliser les claviers d'ordinateur en raison de limitations physiques.

 

En 1990, la licence de DragonDictate, la première « machine à écrire vocale », coûtait 9 000 dollars.

 

Plus tard dans les années 1990, d'autres interfaces utilisateurs vocales ont été introduites afin d’automatiser les processus commerciaux. Par exemple, le portail VAL de BellSouth traitait les demandes de renseignements téléphoniques et était en mesure d’indiquer aux clients les services proposés par l'entreprise. Ces premières solutions se sont toutefois avérées peu pertinentes et nécessitaient une longue formation.

 

 Vos désirs sont des ordres

Aujourd’hui, la technologie s'est progressivement développée et de nombreux appareils « connectés » accessibles aux consommateurs sont équipés d’interfaces utilisateurs vocales. Les fabricants de produits technologiques ont alors intégré la reconnaissance vocale dans leurs appareils afin d'offrir à leurs clients une plus grande facilité d'utilisation et un fonctionnement « mains libres ». La facilité de parler pour effectuer une tâche au lieu de devoir la taper apparaît évidente lorsque vous êtes en pleine activité, que ce soit au volant ou devant la télévision.

              Susan Bennett est l’actrice ayant fait la voix américaine de Siri.

 

 

Les systèmes modernes de reconnaissance vocale nous aident à trouver des informations spécifiques, à transcrire des textes et à prendre des rendez-vous. Ils sont également très largement utilisés dans les systèmes interactifs en libre-service, par exemple les services d'assistance technique.

 

Comment fonctionne la reconnaissance vocale ?

Les appareils perçoivent les voix différemment des humains. Au lieu de mots isolés, un appareil identifie un signal continu, dans lequel les sons s'enchaînent harmonieusement. Ainsi, un appareil détectera une même phrase prononcée avec des intonations ou locuteurs différents comme des signaux différents. La voix humaine possédant un fort degré de variation, la précision de la reconnaissance vocale n’est pas encore en mesure d’atteindre 100 %.


La principale fonction des algorithmes de reconnaissance vocale est d'interpréter les sons indépendamment des particularités de prononciation du locuteur ou de la présence de bruits de fond et d'autres interférences.

Vos désirs sont des ordres


Les éléments d'un système de reconnaissance vocale

Les systèmes de reconnaissance vocale se composent de quatre éléments :

 

Speech recognition systems consist of four components:

  • un module de nettoyage du son (pour éliminer les bruits de fond) ;
  • un modèle acoustique (pour discerner les sons de la parole) ;
  • un modèle linguistique (pour prédire les séquences de mots les plus probables) ;
  • un décodeur (pour combiner les données issues du modèle acoustique avec le modèle linguistique afin d'obtenir le résultat final).

 

À chaque étape, le signal acoustique subit une série de transformations et c’est ce que nous allons maintenant étudier plus en détail.

 

1. Le nettoyage du son

La première fonction d'un système de reconnaissance vocale est d'évaluer la qualité de l'entrée sonore et de séparer le signal désiré des interférences sonores ou du bruit de fond. Selon la nature des sons indésirables, différentes approches peuvent être utilisées pour distinguer la parole des bruits de fond.

 

Suppression du bruit

Il existe plusieurs manières de supprimer le bruit au sein d’un système de reconnaissance vocale. L'une d'entre elles consiste à introduire des bruits artificiels, notamment des enregistrements de bruits courants d'origine humaine (par exemple, le bruit d'un moteur de voiture, du vent ou de la pluie), dans le système afin « d’apprendre » au modèle acoustique à distinguer les voix et des bruits de fond. Toutefois, le modèle enverra probablement un message d’erreur s’il rencontre un bruit inconnu.


Cette étape de suppression du bruit peut également reposer sur des solutions matérielles. Certains smartphones sont équipés de deux microphones : le premier, situé à l'avant de l'appareil, capte les paroles avec des interférences, tandis qu'un second, situé à l'arrière, capte les bruits de fond ambiants. Afin d’obtenir un signal clair, il suffit en théorie de soustraire le second signal sonore du premier.

 

Voix indésirables

Il est plus difficile de distinguer une voix particulière lorsque plusieurs personnes parlent en même temps que de distinguer la parole des sons. Afin d’isoler un locuteur unique des autres voix environnantes, le modèle acoustique s'adapte à la voix de l'utilisateur et mémorise les particularités de sa prononciation.

 

2. La division d’un signal vocal en mots

La fonction suivante d'un système de reconnaissance vocale consiste à isoler des mots individuels dans un flux sonore continu et à déterminer leur signification.

 

Au niveau le plus élémentaire, la parole peut être considérée comme une alternance de sons et de silences. Les silences peuvent être considérés comme des « séparateurs » de mots.

 

Vos désirs sont des ordres

 

Afin d’analyser un signal de parole en termes de mots et de séparateurs de mots, un enregistrement audio est d'abord divisé en trames, c'est-à-dire en petites sections d'une durée d'environ 10 ms. Ces trames ne sont pas strictement consécutives : la fin d'une section est superposée au début de la suivante.

 

Pour déterminer les trames contenant des voix humaines, le système fixe simplement une limite. Les valeurs supérieures à cette limite sont considérées comme des mots, tandis que les valeurs inférieures sont considérées comme du silence. Il existe plusieurs possibilités pour définir la valeur limite :

  • La définir comme une constante (cette constante peut être utilisée lorsque le son est généré de la même manière et dans les mêmes conditions).
  • Définir un nombre de valeurs correspondant aux silences (si les silences occupent une part importante de l'enregistrement).
  • Effectuer une analyse d'entropie (en déterminant l'intensité des « oscillations » du signal à l'intérieur d'une image donnée. L'amplitude des oscillations pour les parties silencieuses d'un enregistrement est généralement plus faible).

 

Parmi ces trois possibilités, l'analyse entropique est aujourd’hui considérée comme la plus fiable, bien qu’elle ne soit pas exempte de défauts. Nous pouvons par exemple citer le fait que l'analyse entropique puisse diminuer lorsque les voyelles sont prononcées ou augmenter lorsqu'il y a un léger bruit. Pour résoudre un tel problème, deux concepts sont introduits : une « durée minimale entre les mots » et une « longueur minimale des mots ». L'algorithme fusionne les fragments trop courts et élimine les bruits.

 

3. L'interprétation des mots

 Vos désirs sont des ordres

Des réseaux de neurones, combinés à un appareil contenant des modèles de Markov cachés, sont généralement utilisés pour interpréter les mots.

Modèles de Markov cachés

Lors de ses recherches sur des textes littéraires du début du 20e siècle, le mathématicien Andreï Markov a d'abord supposé que la probabilité d'apparition d'une lettre dépendait de la lettre qui la précédait. Il s'est toutefois avéré qu’une telle valeur restait constante dans les différentes parties d'un même texte.

Vos désirs sont des ordres


Les indicateurs de probabilité sont uniques pour chaque auteur. Cela permet d'utiliser les modèles de Markov pour repérer le plagiat.

 

Dans les modèles de Markov, le texte imprimé est constitué de séquences de caractères, tandis que les voix sont traitées comme une séquence de phonèmes. Alors que tous les symboles du texte écrit sont connus, les enregistrements vocaux contiennent la manifestation des phonèmes et non les phonèmes eux-mêmes (il y a, par exemple, plusieurs manières de prononcer le son /R/).


L'appareil ne sait pas quel phonème a été prononcé ; il ne perçoit que les paramètres de l'onde sonore à un moment donné. Outre l'estimation de la probabilité d'apparition d'un phonème particulier, le système doit associer les phonèmes aux variantes de signal appropriées.

 

Réseau de neurones à action directe

Jusqu'à récemment, la reconnaissance vocale s’appuyait essentiellement sur les réseaux de neurones à plusieurs couches.

 

Vos désirs sont des ordres

 

  • Ces réseaux traitent les informations dans une seule direction, c'est-à-dire des neurones d'entrée vers les neurones de sortie.
  • Plusieurs couches de neurones sont placées hiérarchiquement entre les couches d’entrée et de sortie, où les paramètres d'un niveau supérieur découlent des paramètres d'un niveau inférieur.
  • L'apprentissage non supervisé implique que le réseau de neurones apprenne à résoudre les problèmes sans intervention extérieure. L'approche révèle des modèles cachés entre les objets de l'échantillon de formation.

Le résultat, représentant un ensemble de probabilités d'occurrence d'un phonème particulier, est ensuite comparé à la prédiction du modèle de Markov. Cela permet de déterminer avec une grande précision un son prononcé.

 

Réseaux de neurones récurrents

Les systèmes de reconnaissance vocale s'éloignent progressivement de l'utilisation de modèles de Markov cachés simplifiés. Les modèles acoustiques sont de plus en plus fréquemment développés sur des réseaux de neurones récurrents, où la mémoire interne et la rétropropagation sont utilisées pour une reconnaissance plus pertinente.


Les neurones ne reçoivent pas seulement des informations de la couche précédente, mais s'envoient également à eux-mêmes les résultats de leur propre traitement. Cela permet de prendre en compte l'ordre d'apparition des données.

 

Vos désirs sont des ordres

 

 

4. La distinction des phrases

Le principe de distinction des phrases et des expressions est très similaire au décodage des mots.


Des modèles de type N-gram étaient auparavant utilisés pour cette tâche, où la probabilité d'occurrence d'un mot en fonction de N mots précédents (en général N = 3) était déterminée sur la base de l'analyse de grands blocs de texte.

Vos désirs sont des ordres

Le Deep learning et le développement de réseaux de neurones récurrents ont considérablement amélioré le modèle linguistique et lui ont permis de prendre en compte le contexte de ce qui a été dit. La restriction concernant l'utilisation de N mots précédents a également disparu.


Les modèles linguistiques sont désormais capables de deviner les mots manquants ou non reconnus pour un certain nombre de raisons. Une telle avancée s'est avérée particulièrement importante pour les langues dont l'ordre des mots est parfois aléatoire, comme le russe, où ce ne sont pas seulement les mots précédents qui sont importants, mais l'ensemble de la phrase.

 

C'est ainsi que fonctionnent la plupart des systèmes de reconnaissance vocale. Mais, il ne suffit pas uniquement de comprendre ce qui a été dit pour aboutir au bon résultat. Pour être parfaitement fonctionnel, le système doit également être capable de répondre aux commandes entrantes : il doit répondre aux questions, ouvrir des applications et gérer d'autres fonctionnalités. L’ensemble de ces tâches reviennent aux assistants vocaux .

 

Reconnaissance vocale du MAG425A

 Vos désirs sont des ordres

Le MAG425A est équipé d'une télécommande à commande vocale et de l'assistant Google. L'interface vocale permet d’offrir une toute nouvelle expérience utilisateur.

Parmi les principales fonctionnalités de l'assistant vocal nous retrouvons :

  • Une aide apportée aux utilisateurs afin de trouver des contenus intéressants
  • La réponse à certaines questions (par exemple, sur la météo et le trafic routier)
  • Le contrôle de la lecture (lancer des séries, contrôler le volume)
  • Le contrôle des périphériques

 

Qu'est-ce que l'assistant Google ?

L’assistant Google est un assistant vocal virtuel présenté pour la première fois lors de la conférence Google I/O 2016 en Californie. À l'instar de Siri pour Apple, d'Alexa pour Amazon et de Cortana pour Microsoft, l'application fournit des informations contextuelles à la demande de l'utilisateur et est capable d'effectuer certaines actions (comme saisir des requêtes de recherche, définir des rappels, ouvrir des applications et contrôler la lecture).


L’assistant Google utilise la technologie de l’enseignement assisté par ordinateur et de traitement du langage naturel (NLP). Le système est ainsi capable d'identifier des sons, des mots et des idées dans la parole.


L'assistant fonctionne sur près d’un milliard d'appareils et prend en charge plus de trente langues, mais la version Android TV ne fonctionne pour l'instant qu’avec douze langues : l’anglais, le français, l’allemand, l’hindi, l’indonésien, l’italien, le japonais, le coréen, le portugais, l’espagnol, le suédois et le vietnamien.

Vos désirs sont des ordres

 

Comment fonctionne l'assistant Google ?

Tout d'abord, l'application enregistre les paroles qu'elle détecte. L'interprétation de ces paroles nécessitant une grande puissance de calcul, l’assistant Google envoie ensuite des requêtes aux centres de données de Google. Lorsque les données sonores parviennent à l'un de ces centres, le signal sonore est divisé en sons. L'algorithme de l'assistant Google consulte alors une base de données de sons vocaux et détermine les mots qui correspondent le mieux à la combinaison de sons enregistrée.


Le système distingue ensuite les mots « principaux » de la commande de l'utilisateur et décide de la réponse appropriée à apporter. Par exemple, si l'assistant Google identifie des mots tels que « météo » et « aujourd'hui », il répondra par les prévisions météorologiques du jour.

 

 Vos désirs sont des ordres

Les serveurs Google renvoient les informations à l'appareil, et l'application assistant Google exécute l'action souhaitée ou répond par un message vocal.

Google fait continuellement évoluer le mode de fonctionnement de l’assistant Google afin que la parole soit reconnue et que les commandes soient traitées directement sur l'appareil de l'utilisateur. En utilisant les capacités des réseaux de neurones récurrents, l'entreprise est parvenue à développer un nouveau modèle pour la reconnaissance et la compréhension de la parole. La taille de la base de données des modèles acoustiques a été divisée par cent, permettant à l'intelligence artificielle de l'assistant Google de travailler localement. L'application traite la parole en temps réel et avec un délai quasi inexistant, même sans accès Internet.

Vos désirs sont des ordres

La nouvelle génération de l'assistant Google répond aujourd’hui à une requête presque dix fois plus rapidement qu’auparavant. Depuis 2019, les nouveaux modèles de smartphones Pixel de Google prennent en charge l'assistant Google. À l'avenir, l'application sera également disponible sur d'autres appareils.

 

Aujourd'hui, l'interface vocale d'Android TV est disponible non seulement pour les entreprises disposant de budgets très élevés, mais également pour les opérateurs IPTV/OTT locaux. L'interface vocale d'Android TV permet aux opérateurs d'attirer de nouveaux publics, de rendre la recherche de contenu et l'accès aux services plus faciles et plus intuitifs pour les utilisateurs, afin de se démarquer de leurs concurrents.

*Google et Android TV sont des marques déposées de Google LLC.
 

Recommended

Vos désirs sont des ordres

Le RDK comme avenir de l’IPTV : une plateforme conçue pour les opérateurs

Les technologies de télécommunication sont de plus en plus innovantes d’année en année, proposant aux opérateurs des solutions adaptées et de grandes avancées dans le domaine télévisuel. Dans cet article, nous nous concentrerons principalement sur l'une de ces innovations : la technologie RDK. Nous expliquerons en détail pourquoi des centaines d'opérateurs se tournent vers cette solution adaptée à leurs besoins.
Vos désirs sont des ordres

Ministra PRO : Mises à jour de juillet

L’été et les vacances sont là et nous nous préparons également à en profiter. C’est pourquoi notre message pour juillet sera un peu plus court que d’habitude. Nous avons rassemblé toutes les mises à jour majeures de cette année afin que vous puissiez les découvrir tout en vous détendant au bord de la piscine.

Vos désirs sont des ordres

Comment développer un service IPTV au sein d’un environnement composé d’expatriés

Lors du lancement d’un service IPTV/OTT, les opérateurs locaux essaient d'atteindre un public aussi large que possible, mais négligent souvent un public potentiel : les expatriés.