В Google AI научили «глухой» алгоритм распознавать речь
Logo
Cover

Результат эксперимента оказался неожиданным даже для самих исследователей — алгоритмы, обученные с помощью системы анализа спектрограмм SpecAugment, превзошли все предыдущие методы. Даже без помощи языковой модели.

Системы автоматического распознавания речи переводят звуки в текст для дальнейшего использования голосовыми помощниками — например, Google Assistant в умной колонке Home или в приложении Gboard для смартфонов Android, которое позволяет надиктовать письмо или сообщение. Снижение коэффициента ошибок — ключевой фактор для развития таких алгоритмов, говорится в отчете экспертов PwC 2018 года.

Однако часто обучение ограничено из-за отсутствия адекватного объема данных. Разработчики могут повысить действительный размер имеющихся данных посредством «аугментации». В случае распознавания речи аугментация включает деформацию звуковых волн или добавление фоновых шумов. От этого датасеты становятся значительно больше, но возрастает и стоимость вычислений.

Специалисты Google AI пошли другим путем, пишет VentureBeat. SpecAugment применяет средства визуального анализа данных к спектрограммам, визуальным представлениям речи.

Алгоритм, который проверили на подборке устной английской речи LibriSpeech960h, показал коэффициент ошибок 2,6%. При прослушивании 260 часов телефонных разговоров коэффициент вырос до 6,8%.

Хотя нейронные сети все еще пользуются преимуществами языковой модели, результаты специалистов Google AI доказывают эффективность обучения моделей, пригодных для практического применения, без помощи языковой модели, пишут ученые в блоге.

Обычно на обучение модели распознаванию естественного языка уходят тысячи часов аудиозаписей и миллионы слов, но специалистам IBM удалось недавно создать новую архитектуру обработки данных, которая работает в 15 раз быстрее и не теряет в точности.