Чтобы воспользоваться системой, пользователь в наушниках с микрофонами должен нажать на кнопку, повернув голову в сторону говорящего. Звуковые волны голоса этого человека должны одновременно достичь микрофонов по обе стороны наушников; допустимая погрешность составляет 16 градусов. Наушники отправляют этот сигнал на встроенный компьютер, где программное обеспечение на основе машинного обучения распознает голосовые паттерны нужного говорящего. Система фокусируется на голосе этого человека и продолжает воспроизводить его для слушателя, даже если они оба двигаются. Способность системы концентрироваться на записанном голосе улучшается по мере того, как спикер продолжает говорить, предоставляя системе больше данных для обучения.
Команда протестировала решение на 21 испытуемом. В среднем голос зарегистрированного говорящего звучал почти в два раза четче, чем необработанный окружающий звук.
Эта работа основывается на предыдущем исследовании команды под названием «семантический слух». Технология позволяла пользователям выбирать определенные категории звуков, которые они хотели слышать, например, пение птиц или голоса, приглушая при этом другие окружающие шумы.
Пока у системы есть ограничения. Во-первых, она может запомнить голос только одного человека за раз. Во-вторых, для успешного «запоминания» голос нужного собеседника не должен заглушаться другим громким голосом, доносящимся с того же направления. Если пользователя не устраивает качество звука, он может провести повторную регистрацию спикера, чтобы улучшить четкость.
Команда работает над расширением системы на наушники и слуховые аппараты в будущем.