Hitech logo

Кейсы

Наушники с ИИ позволяют слушать любого в толпе, просто посмотрев на него

TODO:
Екатерина Шемякинская27 мая, 17:14

Как правило, человек в шумоподавляющих наушниках не может выбрать, что он хочет слышать, а что — нет. Команда Вашингтонского университета разработала систему искусственного интеллекта, которая позволяет пользователю в наушниках смотреть на говорящего в течение 3-5 секунд, чтобы «активировать» его. Система подавляет все остальные звуки в окружающей среде и воспроизводит только голос выбранного спикера в реальном времени, даже когда слушатель перемещается в шумных местах и ​​больше не смотрит на говорящего. Тесты показали, что голос говорящего, активированного системой, звучит вдвое четче, чем фоновый шум.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Чтобы воспользоваться системой, пользователь в наушниках с микрофонами должен нажать на кнопку, повернув голову в сторону говорящего. Звуковые волны голоса этого человека должны одновременно достичь микрофонов по обе стороны наушников; допустимая погрешность составляет 16 градусов. Наушники отправляют этот сигнал на встроенный компьютер, где программное обеспечение на основе машинного обучения распознает голосовые паттерны нужного говорящего. Система фокусируется на голосе этого человека и продолжает воспроизводить его для слушателя, даже если они оба двигаются. Способность системы концентрироваться на записанном голосе улучшается по мере того, как спикер продолжает говорить, предоставляя системе больше данных для обучения.

Команда протестировала решение на 21 испытуемом. В среднем голос зарегистрированного говорящего звучал почти в два раза четче, чем необработанный окружающий звук.

Эта работа основывается на предыдущем исследовании команды под названием «семантический слух». Технология позволяла пользователям выбирать определенные категории звуков, которые они хотели слышать, например, пение птиц или голоса, приглушая при этом другие окружающие шумы.

Пока у системы есть ограничения. Во-первых, она может запомнить голос только одного человека за раз. Во-вторых, для успешного «запоминания» голос нужного собеседника не должен заглушаться другим громким голосом, доносящимся с того же направления. Если пользователя не устраивает качество звука, он может провести повторную регистрацию спикера, чтобы улучшить четкость.

Команда работает над расширением системы на наушники и слуховые аппараты в будущем.