Анализ систем голосового управления

В данной статье были рассмотрены вопросы о технологиях, используемых в системах голосового управления, а также проведен анализ систем голосового управления (Аutomаtic Speech Recognition – АSR).

Авторы: Калдыгарина Миргуль Санатовна, Барсай Арай Болатбайкызы

Журнал «Просвещение». Выпуск №3 (5)

Фрагмент для ознакомления

В настоящее время научно-технический прогресс шагнул так далеко, что какие-то 10 лет назад нам кажутся доисторическим веком. Однако, сегодня, как и 5 или 20 лет назад, управление бытовыми и электрическими приборами остались неизменными. Как и тогда, сейчас мы используем различные кнопки управления, рубильники или переключатели, что во всяком случае является весьма удобным и простым способом повлиять на состояние управляемого объекта. Хотя, можно было бы использовать нетрадиционные способы управления и взаимодействия с техникой и приборами, а именно более информативный и близкий к человеку способ самовыражения, как речь. Таким образом в современном мире уже на протяжении нескольких лет идет постепенное внедрение способов улучшения человеко-машинного интерфейса внедрением возможности управления ЭВМ при помощи речевых команд. Одним из которых является применение методов статистической теории распознавания образов. Это позволило исследователям использовать мощный аппарат математической статистики и теории вероятности, что в свою очередь привело к существенному повышению качества распознавания. На сегодняшний день практически все системы распознавания речи основаны на статистических методах. Системы голосового управления уже довольно долгое время известны в мире, но являются достаточно дорогостоящими и применяются в узкоспециализированных сферах. До недавнего времени системы голосового управления не применялись в широком аспекте и не попадали в массы. Только с развитием интернета и вычислительных мощностей современных смартфонов, именитые компании начали продвигать различные способы применения речевого распознавания в бытовых нуждах и только с применением интернета. Большинство систем распознавания речи (Аutomаtic Speech Recognition - АSR) включает в себя процесс анализа и обработки аналогового сигнала и процесс распознавания. Анализируя непрерывный аналоговый сигнал, система из речи выделяет признаки, которые используются далее в процессе распознавания для того, чтобы определить, что было произнесено В настоящее время, на рынке современных технологий, есть много различных систем и программ, использование которых дает возможность распознавание речи. Давайте проведем анализ и сравнение систем распознавания речи, приведенные на рынке в свободном доступе: 1) VoiceNаvigаtor –программа, разработанная компанией «Центр речевых технологий» (ЦРТ)) Это современное решение для контакт-центров, используемое для создания Систем Голосового Самообслуживания. Программа автоматически обрабатывает поступившие вызовы, используя технологии синтеза и распознавания речи. Особенности: - независимость от особенностей речи, произнесенных диктором; - шумоустойчивость к помехам в телефонном канале; - распознавание русской речи работает с надежностью 97% при на словаре в 100 слов. 2) VoiceNаvigаtor Web Голосовое управление навигаций веб-ресурсами. Разработка компании «Центр речевых технологий», дает возможность управлять навигацией сайта при помощи речевых команд. Характеристики данной системы распознавания идентичны характеристикам VoiceNаvigаtor. 3) Speereo Speech Recognition (SSR), разработанная Российской ИТ компанией «Speereo Softwаre». Проектирование и разработка приложений в сфере мобильных устройств. Использование приложений в веб-пространстве. Распознавание речи происходит непосредственно на устройстве, а не на сервере, что является ключевым преимуществом, по мнению разработчиков. Особенности: - надежное распознавание русской речи; - независимость от особенностей речи, произнесенных диктором; - словарь включает около 150 тыс. слов; - возможность поддержки нескольких языков; - компактный размер движка. 4) Sаkrаment АSR Engine, разработанная компанией «Сакрамент». Возможность распознавание речи на различных платформах. Технология распознавания речи используется при создании средств речевого управления – программ, управляющих действиями компьютера или другого электронного устройства с помощью голосовых команд, а также при организации телефонных справочных и информационных служб. Особенности: - независимость от особенностей речи, произнесенных диктором; - точность распознавания достигает 95-98%; - распознавание речи в виде выражений и небольших предложений; - необучаемоспособность. 5) Google Voice Seаrch, разработанная компанией «Google». Голосовой поиск от компании Google, имеющий возможность применения не только на мобильных устройствах, но и на различных платформах, с помощью сервиса, встроенного в браузер Google Chrome. Особенности: - имеет возможность распознавания русской речи; - возможность встраивать распознавание речи на веб-ресурсы; - голосовые команды, словосочетания; - требование постоянного подключения к сети internet. 6) ViаVoice, разработанная компанией «IBM». ViаVoice представляет собой программное ядро для аппаратных реализаций. Компания ProVox Technologies основываясь на программное ядро ViaVoice разработала систему VoxReports для того, чтобы врачи-радиологи имели возможность диктовки отчета. Особенности: - точность распознавания достигает 95-98%; - независимость от особенностей речи, произнесенных диктором; - словарь системы ограничен набором специфических терминов. Таким образом можно сказать, что на данный момент мы имеем достаточно большой спектр продукции, позволяющей использовать системы по распознаванию речи. Но эта продукция не является конечным результатом распознавания речи, а служит переходной ступенью в развитии систем голосового управления.