Выделение речи из шума разговора — важный шаг к появлению эффективных коммуникационных технологий, от голосовых сообщений и записи музыкальных произведений до искусственного интеллекта.
Специалисты из Facebook разработали рекуррентную нейронную сеть для создания модели, которая обрабатывает последовательности аудиоданных переменной длины. Статья была представлена на Международной конференции машинного обучения (ICML) 2020, пишет VentureBeat.
Модель использует кодирующую сеть, которая отображает звуковые волны в виде скрытого представления. Затем сеть выделения голоса трансформирует эти представления в аудиосигнал каждого говорящего. Алгоритм должен знать общее число собеседников, но подсистема может автоматически определять говорящих и выбирать речевую модель соответственно.
Разработчики обучили несколько моделей выделять голоса двух, трех, четырех и пяти собеседников. Они убеждены, что такая система способна улучшить качество звука слуховых аппаратов — пользователь сможет различать голоса в шумных помещениях, например, на вечеринках или в ресторанах.
Следующим этапом станет оптимизация модели до состояния, когда уровень ее производительности станет соответствовать требованиям прикладного применения.
Распознавать нечеткую речь людей с нарушениями дикции или боковым амиотрофическим склерозом научили алгоритм специалисты из Google. Для этого им пришлось собрать образцы речи людей с проблемным произношением или с различными акцентами.