ИИ-фильтр Google научился различать отдельные голоса в шуме толпы

Обучение машин

Георгий Голованов15 октября 2018 г., 09:43

Георгий Голованов15 октября 2018 г., 09:43

Выделить один голос в гомоне толпы человек может подсознательно, но умным колонкам вроде Google Home или Amazon Echo такая задача не всегда под силу. Специально для них было разработано новое решение на основе искусственного интеллекта.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Специалисты Google и швейцарского исследовательского института Idiap описали в патентной заявке устройство нового голосового фильтра, позволяющего избирательно выделять нужный голос в толпе. Они обучили две отдельных нейронных сети — одна маскировала звук, другая узнавала — таким образом, что коэффициент ошибок при распознавании речи в условиях множественных сигналов снизился, рассказывает VentureBeat.

Цифровой прорыв: как искусственный интеллект меняет медийную рекламу

Разработка ученых строится на инструменте лаборатории MIT, появившемся в начале года. PixelPlayer научился изолировать звуки отдельных инструментов в видео YouTube. Также метод использует достижения специалистов английского Университета Суррея 2015 года, которые преобразовывали пение в спектрограммы.

Получившаяся двухчастная система, названная VoiceFilter, состоит из алгоритма машинного обучения, который хорошо справляется с задачами прогнозирования, и сверточной нейронной сети. Первый в качестве входящих данных использовал предварительно обработанные образцы голоса и выдавал звук в форме вектора, а вторая определяла необходимый фильтр.

Разработчики использовали два набора данных для обучения: около 34 млн записей анонимных голосов 138 000 человек и компиляцию библиотек LibriSpeech, VoxCeleb и VoxCeleb2. В результате VoiceFolter добился снижения коэффициента ошибок с 55,9% до 23,4%.

«Такая система гораздо удобнее для реальных сценариев, поскольку не требует предварительного знания о численности говорящих… Наша система полностью полагается на аудиосигнал и может с легкостью приспособиться к неизвестным голосам», — утверждают авторы исследования.

По мнению одного из ведущих научных сотрудников Google Бена Гомеса, совершенствование систем распознавания человеческой речи — ключевой пункт в дальнейшем развитии информационных технологий. Чем лучше компьютеры понимают речь, тем проще становится людям.

Также по теме

Идеи

Новому решению для зарядки электромобиля не нужна энергосеть

Идеи

Новые органические полимеры способны к обучению и понимают биологические сигналы

Идеи

Ученые MIT нашли безопасный способ создания светящихся растений

Идеи

Илон Маск привлек еще $6 млрд на суперкомпьютер для ИИ

Новости СМИ2