Алгоритм с рекордной точностью распознавания речи работает даже на бюджетном смартфоне
Logo
Cover

Обычно системы распознавания речи зависят от вычислительных мощностей удаленных серверов, однако канадские специалисты разработали нейросеть, которая справляется с этой задачей эффективно, быстро и используя минимум ресурсов процессора.

704

Система EdgeSpeechNets, предложенная разработчиками стартапа DarwinAI и Университета Уотерлу, способна работать даже на недорогих смартфонах. Она основана на нескольких предыдущих достижениях: алгоритмах навигации, температурного контроля и проигрывания музыки, не требующие удаленных серверов, созданных в начале года командой Alexa Machine Learning из Amazon; моделях распознавания голоса на устройстве, представленных в мае Qualcomm; голосовой модели WaveNet для мобильных устройств дублинского стартапа Voysis; и Intel.

Разработчики создали прототип, выполняющий распознавание речи с ограниченным словарем, или поиск ключевых слов — быстрое обнаружение специфических слов в потоке речи, пишет VentureBeat. Затем они выбрали метод трансформации аудиосигнала в математическое представление — так называемый анализ статистического распределения мел-кепстральных коэффициентов — и применили остаточную нейронную сеть для расширения возможностей представлений.

Затем они взялись за генеративный синтез — технологию машинного обучения, которая создает глубокие нейросети с упором на производительность. В данном случае была использована конфигурация, которая обеспечивает точность распознавания не менее 95%.

Для оценки производительности EdgeSpeechNets разработчики использовали набор данных Google Speech Commands, состоящий из 65 000 образцов из 30 коротких слов и фоновых шумов.

Одна из моделей — EdgeSpeechNets-А — показала 97-процентную точность распознавания речи, то есть превзошла все известные результаты.

Другая — EdgeSpeechNets-D — была запущена на телефоне Motorola Moto E с процессором Cortex-A53 с частотой 1,4 ГГц и показала десятикратное уменьшение времени ожидания и снижение объема требуемой памяти на 16,5% по сравнению с современными нейросетями.

В дальнейшем разработчики планируют адаптировать свою технологию к распознаванию зрительных образов и обработке естественной речи.

По мнению главы исследований Google Бена Гомеса, распознавание голоса — основа для дальнейшего развития информационных технологий. Все идет к тому, что информацию можно будет получать в живом диалоге с компьютером. А в какой-то момент нейросети начнут понимать и сложные вопросы.