Оформление заказа
Вы ищете решение:
Выберите свой вариант, и мы составим для вас наиболее выгодное
предложение
Слухаю та виконую
31 рік тому у фільмі «Назад у майбутнє 2» телевізор із голосовим керуванням був такою ж фантастикою, як і літаючі машини. На відміну від автомобілів, комп'ютери еволюціонують швидше, і зараз пристрої з голосовим інтерфейсом доступні кожному. Ми розповімо, як працює розпізнавання мовлення, та продемонструємо роль голосових помічників на прикладі Google Assistant. |
Перші дослідження
Дивно, але першим домашнім продуктом із голосовим інтерфейсом (ГІ) стала іграшка. У 1987 році лялька Джулі розпізнавала дитячу мову, реагувала на подразники (наприклад, відключення світла) і зачитувала вголос книги, що входять до комплекту. |
Через кілька років з'явилося перше домашнє ПЗ для набирання тексту, а також пристрої для людей з вадами зору і тих, хто в силу фізичних обмежень не міг користуватися клавіатурою.
У 1990 році ліцензія Dragon Dictate, першої «голосової друкарської машинки», коштувала $9000.
У 1996 році голосовий інтерфейс використовували для автоматизації бізнес-процесів. Наприклад, портал VAL від BellSouth обробляв телефонні довідкові запити та розповідав про послуги компанії. На жаль, вирішення тих років були неточними та вимагали тривалого навчання.
| Технологія вдосконалювалася і вже у новому столітті стала доступною — сьогодні голосовим інтерфейсом володіють безліч «розумних» пристроїв. Говорити простіше, ніж друкувати: за кермом, у транспорті та перед телевізором. |
Системи розпізнавання мовлення допомагають знаходити інформацію, записують текст під диктовку та призначають зустрічі. Їх застосовують у системах інтерактивного самообслуговування, наприклад, у сервісах техпідтримки.
Як працює розпізнавання мовлення?
Людина та машина сприймають мовлення по-різному. Замість окремих слів пристрій чує безперервний сигнал, де один звук плавно перетікає в інший. Одна фраза, сказана з різною інтонацією чи різними людьми – це різні сигнали. Тому точність розпізнавання ще не досягла 100%. Інтерпретувати сказане незалежно від особливостей вимови того, хто говорить, і різних шумів і перешкод — основне завдання алгоритму розпізнавання. |
Елементи системи розпізнавання мовлення:
- Модуль шумоочищення.
- Акустична модель (визначає звуки, які промовляють).
- Мовна модель (передбачає найімовірніші послідовності слів).
- Декодер (поєднує дані акустичної та мовної моделей та видає кінцевий результат).
На кожному етапі звуковий сигнал проходить перелік перетворень. Про них — далі у статті.
1. Шумоочищення
Спочатку комп'ютер оцінює якість запису та відокремлює корисний сигнал від перешкод. Залежно від природи шуму для цього завдання застосовують різні підходи.
Штучні шуми
Впоратися зі штучним шумом дають змогу кілька способів. Один із них додає поширені штучні перешкоди (наприклад, звук автомобільного двигуна, вітер, дощ) до мовного корпусу для навчання акустичної моделі. Однак, зіткнувшись із незнайомим шумом, модель із високою ймовірністю видасть помилку.
Шуми можна придушити та апаратно. Деякі смартфони оснащені двома мікрофонами: перший уловлює промову з перешкодами, а другий, зі зворотного боку корпусу, — шуми фону. Щоб отримати чистий сигнал, достатньо відняти другий запис від першого.
Сторонні голоси
Складніше виділити конкретний голос, коли кілька людей розмовляють одночасно. Для цього акустична модель адаптується до голосу користувача та запам'ятовує особливості його вимови.
2. Розділення сигналу на слова
Наступне завдання — виділити в суцільному звуковому потоці окремі слова та визначити їхнє значення.
Спочатку запис дробиться на фрейми — невеликі ділянки тривалістю ≈10 мс. При цьому фрейми розміщуються не в суворій послідовності: кінець однієї ділянки накладається на початок іншої.
У спрощеному вигляді можна уявити як поперемінне змінювання звуку і тиші. Саме останню можна вважати своєрідним «розділювачем» слів.
Щоб визначити, які з фреймів містять людський голос, система встановлює поріг. Значення вище за нього вважаються словом, нижче — тишею. Існує кілька варіантів встановити значення порога:
- задати його константою (підходить, коли звук генерується одним способом та в однакових умовах);
- визначити низку значень, що відповідають тиші (якщо тиша становить значну частину запису);
- провести ентропійний аналіз (для цього слід визначити, як сильно «хитається» сигнал у рамках заданого фрейму. Зазвичай для тиші амплітуда коливань нижча).
Ентропійний метод вважають найбільш надійним, але й він має недоліки. Наприклад, ентропія може знижуватися при протягуванні голосних або збільшуватися через невеликий шум. Щоб розв’язати проблему, введено поняття «мінімальна відстань між словами» та «мінімальна довжина слова». Алгоритм склеює надто короткі уривки та відсікає шум.
3. Розшифрування слів
Частіше за все для дешифрування слів використовуються нейронні мережі, суміщені з апаратом прихованих марківських моделей. |
Приховані марківські моделі Досліджуючи літературні тексти початку ХХ століття, математик Андрій Марков припустив, що можливість появи літери залежить від того, яка літера їй передувала. Виявилося, що це значення залишається постійним у різних частинах одного тексту. |
Імовірнісні показники є унікальними для кожного автора. Це дає змогу використовувати марківську модель для обчислення плагіату.
У моделі Маркова друковані тексти є послідовністю символів, а усне мовлення — послідовністю фонем. Але якщо в письмовому тексті відомі всі символи, то в записі голосу доступна не сама фонема, а лише її реалізація (наприклад, є кілька способів вимовити звук «Р»).
Комп'ютер не знає, яка фонема була вимовлена, йому доступні лише параметри звукової хвилі в певний момент часу. Крім оцінки ймовірності появи тієї чи іншої фонеми, системі необхідно асоціювати фонеми з відповідними варіантами сигналів.
Нейронні мережі прямого поширення
До недавнього часу в розпізнаванні мовлення найчастіше застосовували нейромережі, що самонавчаються, з великою кількістю шарів.
- Така мережа обробляє інформацію виключно в одному напрямку — від вхідних нейронів до вихідних.
- Між входом і виходом ієрархічно розташовано кілька шарів нейронів, де параметри вищого рівня випливають із параметрів нижчого рівня.
- Самонавчання чи навчання без вчителя має на увазі, що нейромережа вчиться вирішувати завдання без втручання ззовні. Підхід виявляє приховані закономірності між об'єктами навчальної вибірки.
Результат, що представляє набір імовірностей появи тієї чи іншої фонеми, зіставляється із пророкуванням марківської моделі. Вимовлений звук визначається досить точно.
Рекурентні нейронні мережі
Системи розпізнавання мовлення поступово відходять від використання прихованих спрощених марківських моделей. Все частіше акустичні моделі будують на основі рекурентних нейронних мереж, де для більш ефективного розпізнавання задіяна внутрішня пам'ять та метод зворотного розповсюдження помилки.
Нейрони отримують інформацію не лише від попереднього шару, а й надсилають результати власних обчислень самим собі. Це дає змогу враховувати порядок надходження даних.
4. Побудова фраз
Принцип складання фраз і речень дуже схожий на декодування слів. Раніше для цього завдання застосовувалися моделі типу N-грам, де з урахуванням аналізу великих масивів тексту обчислювалась імовірність появи слова залежно від попередніх слів (зазвичай N=3). |
Глибоке навчання та розвиток рекурентних нейромереж істотно покращили лінгвістичну модель і дали їй змогу враховувати контекст того, що сказано. Обмеження на використання лише N попередніх слів також зникло.
Лінгвістичні моделі змогли вгадувати слова, що через низки причин були втрачені або не розпізнані. Особливо важливим це виявилося для мов із довільним порядком слів (наприклад, російської), де важливі не лише попередні слова, а й ціла фраза.
Так працює більшість систем розпізнавання мовлення. Але розуміти сказане недостатньо. Щоб стати корисною, система повинна реагувати на команди, що надходять: відповідати на запитання, відкривати додатки та керувати іншими функціями. Цим займаються голосові помічники.
Розпізнавання мовлення у MAG425A
MAG425А оснащений пультом ДК з голосовим керуванням та помічником Google Assistant. Голосовий інтерфейс забезпечує абсолютно новий досвід користувача. Основні функції голосового помічника:
|
Що таке Google Assistant?
Google Assistant — віртуальний голосовий помічник, вперше представлений на конференції Google I/O 2016 у Каліфорнії. Подібно до Siri від Apple, Alexa від Amazon або Cortana від Microsoft, на запит користувача додаток видає контекстну інформацію і вміє виконувати дії (наприклад, вводить пошукові запити, встановлює нагадування, відкриває програми та керує відтворенням).
Google Assistant використовує машинне навчання та технологію оброблення природної мови (Natural Language Processing, NLP). Система вміє виділяти у мовленні звуки, слова та ідеї.
Асистент працює на мільярді пристроїв і підтримує більше ніж 30 мов. Але версія для Android TV поки розмовляє лише 12 мовами: англійською, французькою, німецькою, хінді, індонезійською, італійською, японською, корейською, португальською, шведською, в'єтнамською та іспанською.
Як працює Google Assistant?
Спочатку програма записує мовлення. Щоб інтерпретувати його, потрібні великі обчислювальні потужності, тому Google Assistant надсилає запити в дата-центри Google. В них суцільний сигнал ділиться на звуки. Алгоритм звертається до бази даних та визначає, які слова найбільше відповідають записаній комбінації звуків.
Потім система виділяє «головні» слова та вирішує, як реагувати. Наприклад, якщо Google Assistant помічає слова «погода» та «сьогодні», її відповіддю стане прогноз погоди.
Сервери Google надсилають інформацію назад на пристрій, і програма Google Assistant виконує потрібну дію або відповідає голосом. |
Google змінює модель роботи Google Assistant так, щоб розпізнавання мовлення та оброблення команд відбувалися безпосередньо на пристрої. Використовуючи можливості рекурентних нейромереж, компанія створила нову модель розпізнавання та розуміння мови. Розмір бази даних акустичних моделей скоротився в 100 разів, тому штучний інтелект Assistant вже може працювати локально. Навіть без доступу до мережі програма обробляє мовлення в реальному часі та з практично нульовою затримкою. |
Використовуючи потужності пристрою, Google Assistant нового покоління реагує на запит практично вдесятеро швидше. У 2019 році його підтримка з'явилася в нових моделях смартфонів Pixel, надалі програма стане доступною і на інших пристроях.
Завдяки Android TV голосовий інтерфейс доступний не лише компаніям з мільйонними бюджетами, а й локальним IPTV/OTT-операторам. Це гарний шанс залучити нову аудиторію, спростити пошук контенту, зробити сервіс зручнішим та виділитися на тлі конкурентів.
*Google та Android TV є торговельними марками компанії Google LLC.
Recommended
Ministra PRO без вкладень: як оператору отримати нове безплатне middleware?
Запуск IPTV/OTT-проєкту вимагає від оператора інвестицій у дослідження ринку, обладнання, закупівлю контенту, рекламу, пристрої та безліч інших вкладень. Infomir пропонує вигідне вирішення, яке дасть операторам змогу заощадити на оплаті одного з найважливіших елементів сервісу та отримати безплатне проміжне програмне забезпечення для IPTV.
Перспективне IPTV з RDK: зручна платформа для операторів
Телекомунікаційні технології з кожним роком виходять на новий рівень, пропонуючи операторам нові ефективні вирішення та вдосконалення телебачення. У цій статті ми розповімо про одне з них — технологію RDK, з'ясуємо, чому сотні операторів обирають це вирішення і в чому його цінність.
Ministra PRO: оновлення в липні
Час відпусток у самісінькому розпалі, та ми й самі готуємося до відпочинку, тому липневий дайджест буде коротким. Ми зібрали всі основні оновлення за цей рік, щоб ви могли ознайомитися з ними, насолоджуючись відпочинком біля басейну.