Специалисты Google и швейцарского исследовательского института Idiap описали в патентной заявке устройство нового голосового фильтра, позволяющего избирательно выделять нужный голос в толпе. Они обучили две отдельных нейронных сети — одна маскировала звук, другая узнавала — таким образом, что коэффициент ошибок при распознавании речи в условиях множественных сигналов снизился, рассказывает VentureBeat.
Разработка ученых строится на инструменте лаборатории MIT, появившемся в начале года. PixelPlayer научился изолировать звуки отдельных инструментов в видео YouTube. Также метод использует достижения специалистов английского Университета Суррея 2015 года, которые преобразовывали пение в спектрограммы.
Получившаяся двухчастная система, названная VoiceFilter, состоит из алгоритма машинного обучения, который хорошо справляется с задачами прогнозирования, и сверточной нейронной сети. Первый в качестве входящих данных использовал предварительно обработанные образцы голоса и выдавал звук в форме вектора, а вторая определяла необходимый фильтр.
Разработчики использовали два набора данных для обучения: около 34 млн записей анонимных голосов 138 000 человек и компиляцию библиотек LibriSpeech, VoxCeleb и VoxCeleb2. В результате VoiceFolter добился снижения коэффициента ошибок с 55,9% до 23,4%.
«Такая система гораздо удобнее для реальных сценариев, поскольку не требует предварительного знания о численности говорящих… Наша система полностью полагается на аудиосигнал и может с легкостью приспособиться к неизвестным голосам», — утверждают авторы исследования.
По мнению одного из ведущих научных сотрудников Google Бена Гомеса, совершенствование систем распознавания человеческой речи — ключевой пункт в дальнейшем развитии информационных технологий. Чем лучше компьютеры понимают речь, тем проще становится людям.