Системы автоматического распознавания речи переводят звуки в текст для дальнейшего использования голосовыми помощниками — например, Google Assistant в умной колонке Home или в приложении Gboard для смартфонов Android, которое позволяет надиктовать письмо или сообщение. Снижение коэффициента ошибок — ключевой фактор для развития таких алгоритмов, говорится в отчете экспертов PwC 2018 года.
Однако часто обучение ограничено из-за отсутствия адекватного объема данных. Разработчики могут повысить действительный размер имеющихся данных посредством «аугментации». В случае распознавания речи аугментация включает деформацию звуковых волн или добавление фоновых шумов. От этого датасеты становятся значительно больше, но возрастает и стоимость вычислений.
Специалисты Google AI пошли другим путем, пишет VentureBeat. SpecAugment применяет средства визуального анализа данных к спектрограммам, визуальным представлениям речи.
Алгоритм, который проверили на подборке устной английской речи LibriSpeech960h, показал коэффициент ошибок 2,6%. При прослушивании 260 часов телефонных разговоров коэффициент вырос до 6,8%.
Хотя нейронные сети все еще пользуются преимуществами языковой модели, результаты специалистов Google AI доказывают эффективность обучения моделей, пригодных для практического применения, без помощи языковой модели, пишут ученые в блоге.
Обычно на обучение модели распознаванию естественного языка уходят тысячи часов аудиозаписей и миллионы слов, но специалистам IBM удалось недавно создать новую архитектуру обработки данных, которая работает в 15 раз быстрее и не теряет в точности.