Proposición comercial

Product request

You are looking for a solution:

Select an option, and we will develop the best offer
for you

Your regional manager will answer you

Please select the destination country to continue.

What products are you interested in?

Please select one of the options to continue

Please select the products to continue.

In our response, we want to address you by name

Please fill in the field to continue.

No ads. Our manager will use this email address to contact you

Please fill in the field to continue.

Enter the phone number and the manager will contact you

Please enter your phone number to continue.

Select a business field, and we will develop the best offer for you

Please choose a business field to continue.

Enter your company’s legal name

Please indicate your company name to continue.

Tell us about your project

Please Tell us about your project to continue.

0 / 800

Confirm the details

What products are you interested in?

Select an option, and we will develop the best offer for you

Please select one of the options to continue.

In our response, we want to address you by name

Please fill in the field to continue.

No ads. Our manager will use this email address to contact you

Please fill in the field to continue.

Enter the phone number and the manager will contact you

Please enter your phone number to continue.

Select a business field, and we will develop the best offer for you

Please choose a business field to continue.

Enter your company’s legal name

Please indicate your company name to continue.

Your regional manager will answer you

Please select the destination country to continue.

Tell us about your project

Please tell us about your project to continue.

By clicking on 'Submit', you confirm that you have read, understood, and accept our privacy policy.

Thank you
Your message has been sent.

Our manager will contact you as soon as possible.

  • US North America
  • EU Europe
  • MENA Middle East, Africa and Australia

No ads. We will use this address to contact you

Please fill in the field to continue.

Confirm the details

What products are you interested in?

Select an option, and we will develop the best offer for you

Please select the products to continue.

No ads. Our manager will use this email address to contact you.

Please fill in the field to continue.

We will provide information for your quantity

Please fill in the field to continue.

We will provide information for your region

Please select the country to continue.

By clicking on 'Submit', you confirm that you have read, understood, and accept our privacy policy.

Thank you!
Your message has been sent.

Your request will be processed shortly.

Sus deseos son órdenes

Sus deseos son órdenes

 

 Sus deseos son órdenes

Hace 31 años, una TV que respondía a comandos de voz en la película Regreso al Futuro II era una idea tan fantástica como un coche volador - ahora, casi todo el mundo tiene acceso a dispositivos con interfaces de voz. En este artículo, te explicaremos cómo funciona el reconocimiento de voz y te mostraremos cómo funcionan los asistentes de voz, utilizando Google Assistant como ejemplo.

 

 

Primeros experimentos de reconocimiento de voz

 Sus deseos son órdenes

Sorprendentemente, el primer producto doméstico con interfaz de voz (VI) fue un juguete. En 1987 salió a la venta la muñeca "Julie", que podía entrenarse para reconocer el habla de los niños. Julie reaccionaba a estímulos como apagar la luz y leía en voz alta los libros que venían con ella.

 

Pocos años después aparecieron los primeros programas para dictar con reconocimiento de voz, además de dispositivos para discapacitados visuales y personas que no podían utilizar teclados de ordenador por limitaciones físicas.

 

En 1990, una licencia de DragonDictate, la primera "máquina de escribir por voz", costaba 9.000 $.

 

Más adelante, en los años 90, se introdujeron otras interfaces de voz para automatizar procesos a nivel empresarial. Por ejemplo, el portal VAL de BellSouth procesaba las consultas telefónicas e informaba a los clientes sobre sus servicios. Por desgracia, estas primeras soluciones eran imprecisas y requerían una larga formación.

 

 Sus deseos son órdenes

La tecnología fue mejorando con el tiempo y, hoy en día, muchos de los dispositivos "inteligentes" a disposición de los consumidores vienen equipados con interfaces de voz. Los fabricantes de dispositivos tecnológicos han incorporado el reconocimiento de voz a sus aparatos para ofrecer a sus clientes una mayor facilidad de uso y un funcionamiento de manos libres. Hablar es más fácil que teclear cuando se está en medio de las actividades rutinarias: al conducir o ir al trabajo, o cuando se está delante de la TV.

              Susan Bennett es una actriz estadounidense conocida por ser la voz de Siri..

 

 

Los sistemas actuales de reconocimiento de voz facilitan la búsqueda de información, la transcripción de textos y la organización de citas. Se utilizan en sistemas interactivos de autoservicio como, por ejemplo, los servicios de asistencia técnica.

 

 

¿Cómo funciona el reconocimiento de voz?

Los dispositivos perciben el habla de forma distinta a los humanos. En lugar de palabras aisladas, un aparato oye una señal continua, en la que los sonidos fluyen entre sí. Un dispositivo detectará una misma frase pronunciada con distintas entonaciones o por distintos locutores como señales diferentes. Debido al alto grado de variabilidad del habla humana, la precisión del reconocimiento de voz todavía no ha alcanzado el 100%.


La principal tarea de los algoritmos de reconocimiento de voz es interpretar lo que se ha dicho independientemente de las peculiaridades de pronunciación del hablante o de la presencia de ruido de fondo y otras interferencias.


Sus deseos son órdenes

Elementos del sistema de reconocimiento de voz

Los sistemas de reconocimiento de voz constan de cuatro componentes:

  • un módulo de limpieza acústica (para eliminar el ruido de fondo)
  • un modelo acústico (para discernir los sonidos del habla)
  • un patrón lingüístico (para predecir las secuencias de palabras más probables)
  • un decodificador (para combinar los datos obtenidos del modelo acústico con el patrón lingüístico y obtener el resultado final)

 

En cada etapa, la señal acústica atraviesa una serie de transformaciones. A continuación se describen con más detalle.

 

1. Limpieza acústica

La primera tarea de un sistema de reconocimiento del habla es evaluar la calidad del sonido de entrada y separar la señal deseada de las interferencias sonoras, o del ruido. Dependiendo de la naturaleza del sonido no deseado, se pueden utilizar distintos enfoques para filtrar el habla del ruido de fondo.

 

Supresión del ruido

Hay varias formas de suprimir el ruido en un sistema de reconocimiento de voz. Un método consiste en introducir ruido artificial en el sistema (por ejemplo, el sonido del motor de un coche, el viento o la lluvia) para "enseñar" al modelo acústico a distinguir el sonido del ruido de fondo. Sin embargo, cuando el sistema se encuentra más tarde con un ruido desconocido, es probable que el modelo envíe un mensaje de "error".


Otros métodos de supresión del ruido se basan en soluciones de hardware. Algunos smartphones están equipados con dos micrófonos: el primero, situado en la parte delantera del dispositivo, capta el habla con interferencias, mientras que un segundo micrófono, en la parte trasera, recoge el ruido de fondo ambiental. En teoría, todo lo que hay que hacer para obtener una señal clara es sustraer la segunda señal sonora de la primera.

 

Voces extrañas

Resulta más complicado distinguir una voz concreta cuando varias personas hablan al mismo tiempo, que distinguir el habla de los sonidos no verbales. Para aislar a un orador individual de otras voces, el modelo acústico se adapta a la voz del usuario y recuerda las peculiaridades de su pronunciación.

 

2. Dividir una señal verbal en palabras

La siguiente tarea de un sistema de reconocimiento de voz es identificar palabras individuales en un flujo sonoro continuo y determinar su significado.

 

En su nivel más básico, el habla puede verse como una alternancia de sonidos y silencios. Los silencios pueden entenderse como "separadores" de palabras.

 

Sus deseos son órdenes

 

Para analizar una señal de voz en términos de palabras y separadores de palabras, primero se divide una grabación de sonido en fotogramas o tramos, es decir, pequeñas secciones de aproximadamente 10 ms de duración. Estos no deben ser estrictamente consecutivos: el final de una sección se superpone al principio de otra.

 

Para determinar cuáles de los tramos contienen voces humanas, el sistema establece un límite. Los valores por encima del límite se consideran palabras, mientras que los valores por debajo se entienden como silencio. Hay varias opciones para fijar el valor límite:

  • Fijándola como una constante (esta constante puede utilizarse cuando el sonido se genera de la misma manera y en las mismas condiciones).
  • Definir un número de valores que correspondan al silencio (si el silencio ocupa una parte importante de la grabación).
  • Realizar un análisis de entropía (para ello es necesario determinar con qué intensidad "oscila" la señal dentro de un fotograma determinado. La amplitud de las oscilaciones en las partes silenciosas de una grabación suele ser menor).

 

De los tres, el análisis de entropía se considera el más fiable, aunque presenta defectos. Por ejemplo, la entropía puede disminuir cuando se pronuncian vocales o aumentar con un ligero ruido. Para resolver esta situación, se introducen dos conceptos: una "distancia mínima entre palabras" y una "longitud mínima de palabra". El algoritmo fusiona los fragmentos demasiado cortos y elimina el ruido.

 

3. Interpretación de las palabras

 Sus deseos son órdenes

Lo más frecuente es utilizar redes neuronales, combinadas con un aparato que contiene modelos ocultos de Markov, para interpretar las palabras.

Modelos ocultos de Markov

Mientras investigaba textos literarios de principios del siglo XX, el matemático Andrey Markov supuso inicialmente que la probabilidad de aparición de una letra dependía de la letra que la precedía. Resultó que este valor permanecía constante en distintas partes del mismo texto.

Sus deseos son órdenes


Los indicadores de probabilidad son únicos para cada autor. Esto permite utilizar modelos de Markov para detectar plagios.

 

En los modelos de Markov, el texto impreso consiste en secuencias de caracteres, mientras que el habla se trata como una secuencia de fonemas. Mientras que en el texto escrito se conocen todos los símbolos, las grabaciones de voz contienen la manifestación de los fonemas y no los fonemas en sí (por ejemplo, hay varias formas de pronunciar el sonido "R").


El aparato no sabe qué fonema se ha pronunciado; tan sólo percibe los parámetros de la onda sonora en un momento determinado. Además de estimar la probabilidad de que se produzca un fonema concreto, el sistema tiene que asociar los fonemas con las variantes de señal apropiadas.

 

Redes neuronales de avance

Hasta hace poco, las redes neuronales de autoaprendizaje con numerosas capas eran las más utilizadas en el reconocimiento de la voz.

 

Sus deseos son órdenes

 

  • Estas redes procesan la información en una sola dirección, es decir, de las neuronas de entrada a las de salida.
  • Entre la entrada y la salida se sitúan jerárquicamente varias capas de neuronas, en las que los parámetros de un nivel superior se derivan de los parámetros de un nivel inferior.
  • El autoaprendizaje o aprendizaje no supervisado implica que la red neuronal aprende a resolver problemas sin intervención externa. El enfoque revela patrones ocultos entre los objetos de la muestra de entrenamiento.

El resultado, que representa un conjunto de probabilidades de aparición de un fonema concreto, se compara con la predicción del modelo de Markov. El sonido pronunciado se determina con bastante precisión.

 

Redes neuronales recurrentes

Los sistemas de reconocimiento de voz se están alejando gradualmente del uso de modelos de Markov ocultos simplificados. Son cada vez más los modelos acústicos basados en redes neuronales recurrentes, que utilizan la memoria interna y la retropropagación para un reconocimiento más eficaz.


Las neuronas no sólo reciben información de la capa anterior, sino que también se envían a sí mismas los resultados de su propio procesamiento. Esto permite tener en cuenta el orden de aparición de los datos.

 

Sus deseos son órdenes

 

 

4. Fraseología

El principio de distinción entre frases y oraciones es muy similar al de la descodificación de palabras.


Hasta ahora, para esta tarea se utilizaban modelos del tipo N-gram, en los que la probabilidad de aparición de una palabra en función de N palabras anteriores (usu. N = 3) se determinaba a partir del análisis de grandes bloques de texto.

Sus deseos son órdenes

El aprendizaje profundo y el desarrollo de redes neuronales recurrentes mejoraron significativamente el modelo lingüístico y permitieron tener en cuenta el contexto de lo expresado. También desapareció la restricción de utilizar solo N palabras anteriores.


Los modelos lingüísticos eran ahora capaces de adivinar las palabras omitidas o no reconocidas por diversos motivos. Esto resultó ser especialmente importante en lenguas con un orden aleatorio de las palabras, como el ruso, donde no sólo eran importantes las palabras anteriores, sino toda la frase.

 

Así es como funcionan la mayoría de los sistemas de reconocimiento de voz. Pero no basta con entender lo que se dice. Para ser útil, el sistema también debe ser capaz de responder a las órdenes entrantes: tiene que responder a preguntas, abrir aplicaciones y gestionar otras funciones. De estas tareas se encargan los asistentes de voz.

 

Reconocimiento de voz del MAG425A

 Sus deseos son órdenes

MAG425A incluye un mando a distancia controlado por voz y Google Assistant. La interfaz de voz proporciona una experiencia de usuario completamente nueva.

Las principales funciones que realiza el asistente de voz incluyen

  • Ayudar a los usuarios a encontrar contenidos de interés
  • Responder a preguntas (por ejemplo, sobre el tiempo o los atascos)
  • Controlar la reproducción ( poner en marcha programas de TV, ajustar el volumen)
  • Control de dispositivos periféricos

 

¿Qué es el Google Assistant?

Google Assistant (o Asistente de Google) es un asistente de voz virtual presentado por primera vez en la conferencia Google I/O 2016 celebrada en California. Al igual que Siri de Apple, Alexa de Amazon y Cortana de Microsoft, la aplicación ofrece información contextual a petición del usuario y es capaz de realizar determinadas acciones (como introducir consultas de búsqueda, establecer recordatorios, abrir aplicaciones y controlar la reproducción).


Google Assistant utiliza tecnología de aprendizaje asistido por ordenador y Procesamiento del Lenguaje Natural (PLN). El sistema es capaz de distinguir sonidos, palabras e ideas en el habla.

El Asistente funciona en mil millones de dispositivos y es compatible con más de treinta idiomas, pero la versión de Android TV sólo habla doce idiomas hasta ahora: inglés, francés, alemán, hindi, indonesio, italiano, japonés, coreano, portugués, español, sueco y vietnamita.

Sus deseos son órdenes

 

¿Cómo funciona Google Assistant?

En primer lugar, la aplicación graba las voces que detecta. Interpretar el habla requiere una gran capacidad de cálculo, por lo que el Asistente de Google envía solicitudes a los centros de datos de Google. Cuando estos datos llegan a uno de estos centros, la señal sólida se divide en sonidos. El algoritmo del Asistente de Google busca en una base de datos de sonidos del habla y determina qué palabras coinciden mejor con la combinación de sonidos registrada.


A continuación, el sistema selecciona las palabras "principales" del enunciado del usuario y decide cómo responder. Por ejemplo, si el Asistente de Google detecta palabras como "tiempo" y "hoy", responderá con la previsión del tiempo para hoy.

 

 Sus deseos son órdenes

Los servidores de Google envían la información al dispositivo y la aplicación Asistente de Google realiza la acción deseada o responde con una voz.

Google está cambiando la forma en que funciona Google Assistant para que se reconozca el habla y se procesen las órdenes directamente en el dispositivo del usuario. Utilizando las capacidades de las redes neuronales recurrentes, la empresa ha desarrollado un nuevo modelo de reconocimiento y comprensión del habla. El tamaño de la base de datos de modelos acústicos se ha reducido cien veces, por lo que la inteligencia artificial de Assistant ya puede trabajar a nivel local. La aplicación procesa el habla en tiempo real y casi sin demoras, incluso sin acceso a Internet.

Sus deseos son órdenes

El Asistente de Google de nueva generación responde a una solicitud casi diez veces más rápido. Desde 2019, los nuevos modelos de smartphones Pixel de Google son compatibles con Google Assistant. En el futuro, la app también estará disponible en otros dispositivos.

 

Hoy en día, la interfaz de voz de Android TV está disponible no sólo para empresas con presupuestos millonarios, sino también para operadoras locales de IPTV/OTT. Esto supone una gran oportunidad para que las operadoras atraigan a nuevas audiencias, creen búsquedas de contenidos y accedan a los servicios de forma más fácil y cómoda para los usuarios, de modo que puedan destacar frente a sus competidores.

 

*Google y Android TV son marcas comerciales de Google LLC.

Recommended

Sus deseos son órdenes

Cómo las operadoras por cable pueden pasarse a la IPTV con decodificadores Linux

Ahora que la mayoría de los telespectadores se decantan por los servicios de streaming por Internet, las operadoras de TV por cable tienen que adaptarse para no perder competitividad. IPTV (Internet Protocol Television) es una solución eficaz que permite a las operadoras ofrecer contenidos de televisión a través de Internet. Los decodificadores Linux pueden ser una opción rentable y versátil para quienes se planteen el cambio. En este artículo, analizamos los pasos que pueden dar las operadoras de cable para pasarse sin problemas a la IPTV con decodificadores basados en Linux.

Sus deseos son órdenes

IPTV de cara al futuro con RDK: plataforma cómoda para operadoras

Cada año, las tecnologías de telecomunicación se elevan a un nuevo nivel, ofreciendo a las operadoras soluciones eficaces y avances en la TV. En este artículo nos centraremos en uno de estos avances: la tecnología RDK. Explicaremos por qué cientos de operadoras eligen esta solución y la consideran tan valiosa.

Sus deseos son órdenes

Ministra PRO: actualizaciones de julio

Las vacaciones están en ebullición y nosotros también nos preparamos para ellas, así que el resumen de julio será breve. Hemos agrupado todas las actualizaciones importantes de este año para que puedas echarles un vistazo mientras disfrutas de tu tranquilidad junto a la piscina.