Алгоритм с рекордной точностью распознавания речи работает даже на бюджетном смартфоне

Обучение машин

Георгий Голованов23 октября 2018 г., 08:08

Георгий Голованов23 октября 2018 г., 08:08

Обычно системы распознавания речи зависят от вычислительных мощностей удаленных серверов, однако канадские специалисты разработали нейросеть, которая справляется с этой задачей эффективно, быстро и используя минимум ресурсов процессора.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Система EdgeSpeechNets, предложенная разработчиками стартапа DarwinAI и Университета Уотерлу, способна работать даже на недорогих смартфонах. Она основана на нескольких предыдущих достижениях: алгоритмах навигации, температурного контроля и проигрывания музыки, не требующие удаленных серверов, созданных в начале года командой Alexa Machine Learning из Amazon; моделях распознавания голоса на устройстве, представленных в мае Qualcomm; голосовой модели WaveNet для мобильных устройств дублинского стартапа Voysis; и Intel.

Цифровой прорыв: как искусственный интеллект меняет медийную рекламу

Разработчики создали прототип, выполняющий распознавание речи с ограниченным словарем, или поиск ключевых слов — быстрое обнаружение специфических слов в потоке речи, пишет VentureBeat. Затем они выбрали метод трансформации аудиосигнала в математическое представление — так называемый анализ статистического распределения мел-кепстральных коэффициентов — и применили остаточную нейронную сеть для расширения возможностей представлений.

Затем они взялись за генеративный синтез — технологию машинного обучения, которая создает глубокие нейросети с упором на производительность. В данном случае была использована конфигурация, которая обеспечивает точность распознавания не менее 95%.

Для оценки производительности EdgeSpeechNets разработчики использовали набор данных Google Speech Commands, состоящий из 65 000 образцов из 30 коротких слов и фоновых шумов.

Одна из моделей — EdgeSpeechNets-А — показала 97-процентную точность распознавания речи, то есть превзошла все известные результаты.

Другая — EdgeSpeechNets-D — была запущена на телефоне Motorola Moto E с процессором Cortex-A53 с частотой 1,4 ГГц и показала десятикратное уменьшение времени ожидания и снижение объема требуемой памяти на 16,5% по сравнению с современными нейросетями.

В дальнейшем разработчики планируют адаптировать свою технологию к распознаванию зрительных образов и обработке естественной речи.

По мнению главы исследований Google Бена Гомеса, распознавание голоса — основа для дальнейшего развития информационных технологий. Все идет к тому, что информацию можно будет получать в живом диалоге с компьютером. А в какой-то момент нейросети начнут понимать и сложные вопросы.

Также по теме

Кейсы

Университетский стартап привлечет 170 млн рублей инвестиций через платформу участника «Сколково»

Кейсы

«Яндекс» представил самообучающуюся «Роборуку» для работы на складах

Кейсы

Первое доказательство существования системы грунтовых вод на Марсе

Кейсы

Электрический прототип Karma разгоняется до сотни за 1,9 с

Новости СМИ2