Наушники с ИИ позволяют слушать любого в толпе, просто посмотрев на него

Кейсы

Екатерина Шемякинская27 мая 2024 г., 17:14

Екатерина Шемякинская27 мая 2024 г., 17:14

Как правило, человек в шумоподавляющих наушниках не может выбрать, что он хочет слышать, а что — нет. Команда Вашингтонского университета разработала систему искусственного интеллекта, которая позволяет пользователю в наушниках смотреть на говорящего в течение 3-5 секунд, чтобы «активировать» его. Система подавляет все остальные звуки в окружающей среде и воспроизводит только голос выбранного спикера в реальном времени, даже когда слушатель перемещается в шумных местах и больше не смотрит на говорящего. Тесты показали, что голос говорящего, активированного системой, звучит вдвое четче, чем фоновый шум.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Чтобы воспользоваться системой, пользователь в наушниках с микрофонами должен нажать на кнопку, повернув голову в сторону говорящего. Звуковые волны голоса этого человека должны одновременно достичь микрофонов по обе стороны наушников; допустимая погрешность составляет 16 градусов. Наушники отправляют этот сигнал на встроенный компьютер, где программное обеспечение на основе машинного обучения распознает голосовые паттерны нужного говорящего. Система фокусируется на голосе этого человека и продолжает воспроизводить его для слушателя, даже если они оба двигаются. Способность системы концентрироваться на записанном голосе улучшается по мере того, как спикер продолжает говорить, предоставляя системе больше данных для обучения.

Ученые создали квантовую вселенную, в которой время возникло само по себе

Команда протестировала решение на 21 испытуемом. В среднем голос зарегистрированного говорящего звучал почти в два раза четче, чем необработанный окружающий звук.

Эта работа основывается на предыдущем исследовании команды под названием «семантический слух». Технология позволяла пользователям выбирать определенные категории звуков, которые они хотели слышать, например, пение птиц или голоса, приглушая при этом другие окружающие шумы.

Пока у системы есть ограничения. Во-первых, она может запомнить голос только одного человека за раз. Во-вторых, для успешного «запоминания» голос нужного собеседника не должен заглушаться другим громким голосом, доносящимся с того же направления. Если пользователя не устраивает качество звука, он может провести повторную регистрацию спикера, чтобы улучшить четкость.

Команда работает над расширением системы на наушники и слуховые аппараты в будущем.

Также по теме

Кейсы

Российский стартап Neiry показал голубей-киборгов с нейрочипами в мозге

Кейсы

«Самый потрясающий» день в истории Tesla назначен на конец мая

Кейсы

Авито подсчитает экологический вклад каждого пользователя

Кейсы

BYD выпустила электрический минивэн с запасом хода 530 км за $23 000

Новости СМИ2