В Google AI научили "глухой" алгоритм распознавать речь

Обучение машин

В Google AI научили «глухой» алгоритм распознавать речь

Георгий Голованов23 апреля 2019 г., 10:16

Георгий Голованов23 апреля 2019 г., 10:16

Результат эксперимента оказался неожиданным даже для самих исследователей — алгоритмы, обученные с помощью системы анализа спектрограмм SpecAugment, превзошли все предыдущие методы. Даже без помощи языковой модели.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Системы автоматического распознавания речи переводят звуки в текст для дальнейшего использования голосовыми помощниками — например, Google Assistant в умной колонке Home или в приложении Gboard для смартфонов Android, которое позволяет надиктовать письмо или сообщение. Снижение коэффициента ошибок — ключевой фактор для развития таких алгоритмов, говорится в отчете экспертов PwC 2018 года.

«Если ИИ — это мозг робота, то RPA — его руки». Что умеют программные роботы

Однако часто обучение ограничено из-за отсутствия адекватного объема данных. Разработчики могут повысить действительный размер имеющихся данных посредством «аугментации». В случае распознавания речи аугментация включает деформацию звуковых волн или добавление фоновых шумов. От этого датасеты становятся значительно больше, но возрастает и стоимость вычислений.

Специалисты Google AI пошли другим путем, пишет VentureBeat. SpecAugment применяет средства визуального анализа данных к спектрограммам, визуальным представлениям речи.

Алгоритм, который проверили на подборке устной английской речи LibriSpeech960h, показал коэффициент ошибок 2,6%. При прослушивании 260 часов телефонных разговоров коэффициент вырос до 6,8%.

Хотя нейронные сети все еще пользуются преимуществами языковой модели, результаты специалистов Google AI доказывают эффективность обучения моделей, пригодных для практического применения, без помощи языковой модели, пишут ученые в блоге.

Обычно на обучение модели распознаванию естественного языка уходят тысячи часов аудиозаписей и миллионы слов, но специалистам IBM удалось недавно создать новую архитектуру обработки данных, которая работает в 15 раз быстрее и не теряет в точности.

Также по теме

Идеи

Создана технология идентификации людей по воздействию тела на сигнал Wi-Fi

Идеи

Изобретено устройство для оптимизации переноса митохондрий в клетки

Идеи

Спящие черные дыры ставят под сомнение существующие космологические модели

Идеи

Рождение галактик могли запустить гравитационные волны, а не расширение

Новости СМИ2