ИИ-фильтр Google научился различать отдельные голоса в шуме толпы
Logo
Cover

Выделить один голос в гомоне толпы человек может подсознательно, но умным колонкам вроде Google Home или Amazon Echo такая задача не всегда под силу. Специально для них было разработано новое решение на основе искусственного интеллекта.

Специалисты Google и швейцарского исследовательского института Idiap описали в патентной заявке устройство нового голосового фильтра, позволяющего избирательно выделять нужный голос в толпе. Они обучили две отдельных нейронных сети — одна маскировала звук, другая узнавала — таким образом, что коэффициент ошибок при распознавании речи в условиях множественных сигналов снизился, рассказывает VentureBeat.

Разработка ученых строится на инструменте лаборатории MIT, появившемся в начале года. PixelPlayer научился изолировать звуки отдельных инструментов в видео YouTube. Также метод использует достижения специалистов английского Университета Суррея 2015 года, которые преобразовывали пение в спектрограммы.

Получившаяся двухчастная система, названная VoiceFilter, состоит из алгоритма машинного обучения, который хорошо справляется с задачами прогнозирования, и сверточной нейронной сети. Первый в качестве входящих данных использовал предварительно обработанные образцы голоса и выдавал звук в форме вектора, а вторая определяла необходимый фильтр.

Разработчики использовали два набора данных для обучения: около 34 млн записей анонимных голосов 138 000 человек и компиляцию библиотек LibriSpeech, VoxCeleb и VoxCeleb2. В результате VoiceFolter добился снижения коэффициента ошибок с 55,9% до 23,4%.

«Такая система гораздо удобнее для реальных сценариев, поскольку не требует предварительного знания о численности говорящих… Наша система полностью полагается на аудиосигнал и может с легкостью приспособиться к неизвестным голосам», — утверждают авторы исследования.

По мнению одного из ведущих научных сотрудников Google Бена Гомеса, совершенствование систем распознавания человеческой речи — ключевой пункт в дальнейшем развитии информационных технологий. Чем лучше компьютеры понимают речь, тем проще становится людям.