Отдел продаж

Выберите цель обращения:

сотрудничество или оптовая закупка
розничная покупка

Слушаю и повинуюсь

31 год назад в фильме «Назад в будущее 2» телевизор с голосовым управлением был такой же фантастикой, как и летающие машины. В отличие от автомобилей, компьютеры эволюционируют быстрее, и сейчас устройства с голосовым интерфейсом доступны каждому. Мы расскажем, как работает распознавание речи, и продемонстрируем роль голосовых помощников на примере Google Assistant.

Первые опыты

Удивительно, но первым домашним продуктом с голосовым интерфейсом (ГИ) стала игрушка. В 1987 году кукла Джули распознавала детскую речь, реагировала на раздражители (например, отключение света) и зачитывала вслух входящие в комплект книги.

Спустя несколько лет появилось первое домашнее ПО для набора текста, а также устройства для слабовидящих и тех, кто в силу физических ограничений не мог пользоваться клавиатурой.

В 1990 году лицензия Dragon Dictate, первой «голосовой печатной машинки», стоила $9000.

В 1996 году голосовой интерфейс использовали для автоматизации бизнес-процессов. Например, портал VAL от BellSouth обрабатывал телефонные справочные запросы и рассказывал об услугах компании. К сожалению, решения тех лет были неточными и требовали длительного обучения.

Слушаю и повинуюсь

Технология совершенствовалась и уже в новом веке стала доступной — сегодня голосовым интерфейсом обладает множество «умных» устройств. Говорить проще, чем печатать: за рулем, в транспорте и перед телевизором.

Сьюзан Беннетт — актриса, известная как американский голос Siri.

Системы распознавания речи помогают находить информацию, записывают текст под диктовку и назначают встречи. Их применяют в системах интерактивного самообслуживания, например, в сервисах техподдержки.

Как работает распознавание речи?

Человек и машина воспринимают речь по-разному. Вместо отдельных слов устройство слышит непрерывный сигнал, где звуки плавно перетекают друг в друга. Одна фраза, сказанная с разной интонацией или разными людьми — это разные сигналы. Поэтому точность распознавания еще не достигла 100%.

Интерпретировать сказанное независимо от особенностей произношения говорящего и различных шумов и помех — основная задача алгоритма распознавания.

Элементы системы распознавания речи:

модуль шумоочистки;
акустическая модель (определяет произносимые звуки);
языковая модель (предсказывает наиболее вероятные последовательности слов);
декодер (объединяет данные акустической и языковой моделей и выдает окончательный результат).

На каждом этапе звуковой сигнал проходит ряд преобразований. О них — далее в статье.

1. Шумоочистка

Сперва компьютер оценивает качество записи и отделяет полезный сигнал от помех. В зависимости от природы шума, для этой задачи применяют разные подходы.

Искусственные шумы

Справиться с искусственным шумом позволяют несколько способов. Один из них добавляет распространенные искусственные помехи (например, звук автомобильного двигателя, ветер, дождь) к речевому корпусу для обучения акустической модели. Однако, столкнувшись с незнакомым шумом, модель с высокой вероятностью выдаст ошибку.

Шумы можно подавить и аппаратно. Некоторые смартфоны оснащены двумя микрофонами: первый улавливает речь с помехами, а второй, с обратной стороны корпуса, — фоновые шумы. Чтобы получить чистый сигнал, достаточно вычесть вторую запись из первой.

Посторонние голоса

Сложнее выделить конкретный голос, когда несколько людей разговаривают одновременно. Для этого акустическая модель адаптируется к голосу пользователя и запоминает особенности его произношения.

2. Деление сигнала на слова

Следующая задача — выделить в сплошном звуковом потоке отдельные слова и определить их значение.

Сперва запись дробится на фреймы — небольшие участки длительностью ≈10 мс. При этом фреймы идут не строго подряд: конец одного участка накладывается на начало другого.

Слушаю и повинуюсь

В упрощенном виде речь можно представить как попеременную смену звука и тишины. Именно последнюю можно принять за своеобразный «разделитель» слов.

Чтобы определить, какие из фреймов содержат человеческий голос, система устанавливает порог. Значения выше него считаются словом, ниже — тишиной. Существует несколько вариантов установить значение порога:

задать его константой (подходит, когда звук генерируется одним способом и в одинаковых условиях);
определить ряд значений, соответствующих тишине (если тишина занимает ощутимую часть записи);
провести энтропийный анализ (для этого следует определить, как сильно «колеблется» сигнал в рамках заданного фрейма. Обычно для тишины амплитуда колебаний ниже).

Энтропийный метод считают наиболее надежным, но и у него есть недостатки. К примеру, энтропия может понижаться при протягивании гласных или увеличиваться из-за небольшого шума. Чтобы решить проблему, введены понятия «минимальное расстояние между словами» и «минимальная длина слова». Алгоритм склеивает слишком короткие отрывки и отсекает шум.

3. Расшифровка слов

Чаще всего для дешифровки слов используются нейронные сети, совмещенные с аппаратом скрытых марковских моделей.

Скрытые марковские модели

Исследуя литературные тексты начала XX века, математик Андрей Марков предположил, что вероятность появления буквы зависит от того, какая буква ей предшествовала. Оказалось, что данное значение остается постоянным в разных частях одного текста.

Вероятностные показатели уникальны для каждого автора. Это позволяет использовать марковскую модель для вычисления плагиата.

В модели Маркова печатные тексты являются последовательностью символов, а устная речь — последовательностью фонем. Но если в письменном тексте известны все символы, то в записи голоса доступна не сама фонема, а только ее реализация (к примеру, есть несколько способов произнести звук «Р»).

Компьютер не знает, какая фонема была произнесена, ему доступны лишь параметры звуковой волны в определенный момент времени. Кроме оценки вероятности появления той или иной фонемы, системе необходимо ассоциировать фонемы с соответствующими вариантами сигналов.

Нейронные сети прямого распространения

До недавнего времени в распознавании речи чаще всего применяли самообучающиеся нейросети с большим числом слоев.

Слушаю и повинуюсь

Такая сеть обрабатывает информацию исключительно в одном направлении — от входных нейронов к выходным.
Между входом и выходом иерархически расположено несколько слоев нейронов, где параметры более высокого уровня следуют из параметров более низкого уровня.
Самообучение или обучение без учителя подразумевает, что нейросеть учится решать задачи без вмешательства со стороны. Подход выявляет скрытые закономерности между объектами обучающей выборки.

Результат, представляющий набор вероятностей появления той или иной фонемы, сопоставляется с предсказанием марковской модели. Произнесенный звук определяется достаточно точно.

Рекуррентные нейронные сети

Системы распознавания речи постепенно отходят от использования упрощенных скрытых марковских моделей. Все чаще акустические модели строят на основе рекуррентных нейронных сетей, где для более эффективного распознавания задействуется внутренняя память и метод обратного распространения ошибки.

Нейроны получают информацию не только от предыдущего слоя, но и отправляют результаты собственных вычислений самим себе. Это позволяет учитывать порядок поступления данных.

Слушаю и повинуюсь

4. Построение фраз

Принцип составления фраз и предложений очень схож с декодированием слов.

Ранее для этой задачи применялись модели типа N-грамм, где на основе анализа больших массивов текста вычислялась вероятность появления слова в зависимости от N предыдущих слов (обычно N=3).

Глубокое обучение и развитие рекуррентных нейросетей существенно улучшили лингвистическую модель и позволили ей учитывать контекст сказанного. Ограничение на использование только N предыдущих слов также исчезло.

Лингвистические модели смогли угадывать слова, по ряду причин упущенные или не распознанные. Особенно важным это оказалось для языков с произвольным порядком слов (например, русского), где важны не только предыдущие слова, но и фраза целиком.

Так работает большинство систем распознавания речи. Но понимать сказанное недостаточно. Чтобы стать полезной, система должна реагировать на поступающие команды: отвечать на вопросы, открывать приложения и управлять другими функциями. Этим занимаются голосовые помощники.

Распознавание речи в MAG425A

MAG425A оснащен пультом ДУ с голосовым управлением и помощником Google Assistant. Голосовой интерфейс обеспечивает совершенно новый пользовательский опыт.

Основные функции голосового помощника:

Помогает находить интересный контент.
Отвечает на вопросы (например, о погоде и пробках).
Управляет воспроизведением (включает шоу, управляет громкостью).
Контролирует периферийные устройства.

Что такое Google Assistant?

Google Assistant — виртуальный голосовой ассистент, впервые представленный на конференции Google I/O 2016 в Калифорнии. Также как Siri от Apple, Alexa от Amazon или Cortana от Microsoft, по запросу пользователя приложение выдает контекстную информацию и умеет выполнять действия (к примеру, вводит поисковые запросы, устанавливает напоминания, открывает приложения и управляет воспроизведением).

Google Assistant использует машинное обучение и технологию обработки естественного языка (Natural Language Processing, NLP). Система умеет выделять в речи звуки, слова и идеи.

Ассистент работает на миллиарде устройств и поддерживает больше 30 языков. Но версия для Android TV пока разговаривает только на 12 языках: английском, французском, немецком, хинди, индонезийском, итальянском, японском, корейском, португальском, шведском, вьетнамском и испанском.

Слушаю и повинуюсь

Как работает Google Assistant?

Сперва приложение записывает речь. Чтобы интерпретировать ее, требуются большие вычислительные мощности, поэтому Google Assistant отправляет запросы в дата-центры Google. В них сплошной сигнал делится на звуки. Алгоритм обращается к базе данных и определяет, какие слова больше всего соответствуют записанной комбинации звуков.

Затем система выделяет «главные» слова и решает, как реагировать. Например, если Google Assistant замечает слова «погода» и «сегодня», ее ответом станет прогноз погоды.

Серверы Google отправляют информацию обратно на устройство, и приложение Google Assistant выполняет нужное действие или отвечает голосом.

Google меняет модель работы Google Assistant так, чтобы распознавание речи и обработка команд происходили прямо на устройстве. Используя возможности рекуррентных нейросетей, компания создала новую модель распознавания и понимания речи. Размер базы данных акустических моделей сократился в 100 раз, и поэтому искусственный интеллект Assistant уже может работать локально. Даже без доступа к сети приложение обрабатывает речь в реальном времени и с практически нулевой задержкой.

Используя мощности устройства, Google Assistant нового поколения реагирует на запрос практически в 10 раз быстрее. В 2019 году его поддержка появилась в новых моделях смартфонов Pixel, в дальнейшем приложение станет доступным и на других устройствах.

Благодаря Android TV голосовой интерфейс доступен не только компаниям с миллионными бюджетами, но и локальным IPTV/OTT-операторам. Это хороший шанс привлечь новую аудиторию, упростить поиск контента, сделать сервис удобнее и выделиться на фоне конкурентов.

Оформление заказа

Вы ищете решение:

Какие продукты вас интересуют?

Подтвердите данные

Какие продукты вас интересуют?

Спасибо!
Ваше сообщение отправлено.

Подтвердите данные

Какие продукты вас интересуют?

Спасибо!
Ваше сообщение отправлено.

Слушаю и повинуюсь

1. Шумоочистка

2. Деление сигнала на слова

3. Расшифровка слов

4. Построение фраз

Распознавание речи в MAG425A

*Google и Android TV являются товарными знаками компании Google LLC.

Recommended

Что нужно учесть при масштабировании IPTV-сервиса на новые регионы

Как выбрать лучшего агрегатора IPTV-контента

Запуск IPTV-сервиса в небольшом городе: основные вызовы и решения

Оформление заказа

Вы ищете решение:

Какие продукты вас интересуют?

Подтвердите данные

Какие продукты вас интересуют?

Спасибо! Ваше сообщение отправлено.

Подтвердите данные

Какие продукты вас интересуют?

Спасибо! Ваше сообщение отправлено.

Слушаю и повинуюсь

1. Шумоочистка

2. Деление сигнала на слова

3. Расшифровка слов

4. Построение фраз

Распознавание речи в MAG425A

*Google и Android TV являются товарными знаками компании Google LLC.

Recommended

Что нужно учесть при масштабировании IPTV-сервиса на новые регионы

Как выбрать лучшего агрегатора IPTV-контента

Запуск IPTV-сервиса в небольшом городе: основные вызовы и решения

Спасибо!
Ваше сообщение отправлено.

Спасибо!
Ваше сообщение отправлено.