Алгоритм научился имитировать объемный звук для большинства видео

Обучение машин

Георгий Голованов27 декабря 2018 г., 10:39

Георгий Голованов27 декабря 2018 г., 10:39

Благодаря асимметричной форме ушей и расстоянию между ними человек определяет направление к источнику звука. Специалисты Facebook Research и Техасского университета нашли способ правдоподобно сымитировать объемный звук при помощи машинного обучения и пары искусственных ушей.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Мозг человека использует различные приспособления для того, чтобы понять, откуда из трехмерного пространства доносится звук. Один из них — разное время, которое требуется звуку, чтобы достигнуть каждого уха. Звук, идущий слева, очевидно, достигнет до левого уха чуть раньше. Другой способ — разница в объеме. Тот же звук будет восприниматься как более громкий левым ухом, чем правым. Форма уха также помогает мозгу определить, откуда исходит звук, рассказывает MIT Technology Review.

Масштабное исследование показало, что витамин D в три раза замедляет старение

Таким образом, перед желающими воссоздать эту систему искусственно стоит непростая задача. Один из способов — стереофоническая запись. Если разместить в каждом ухе по микрофону, можно зафиксировать эти мельчайшие вариации восприятия звука.

Проанализировав их, ученые могут воспроизвести их при помощи математического алгоритма. Тогда обычные наушники можно превратить в аппарат, создающий трехмерное звучание.

Но поскольку уши у всех разные, все слышат звуки по-своему. Пришлось бы проводить измерения для каждого в отдельности, прежде чем воспроизводить запись. В лаборатории это возможно, но на практике — нет.

Однако, есть способы приблизиться к 3D-звуку без учета индивидуальной формы ушей. Один из них и применили Жохань Гао и Кристен Грауман, чтобы определить, с какой стороны приближается звук, при помощи визуальных подсказок. Система машинного обучения, получив в свое распоряжение видеозапись сцены и монофонического звука, находит его источник и рассчитывает время достижения звуковыми волнами ушных каналов и объем звука.

В результате слушатель воспринимает почти трехмерный звук.

К примеру, на видеозаписи два музыканта, барабанщик и клавишник, один слева, другой справа. Алгоритм распознает это и распределяет звуковые потоки соответственно: ударные — налево, синтезатор — справа.

Для обучения алгоритма ученые собрали базу данных примеров и сделали стереофонические записи свыше 2000 видеоклипов. Чтобы сымитировать слуховой аппарат человека, они изготовили два искусственных уха, закрепили их на болванке шириной с голову человека и дополнили систему камерой GoPro.

Результат можно услышать тут (не забудьте надеть наушники):

Авторы назвали свой звук 2,5D по причине того, что система не персонализирует звук под отдельного пользователя. Также она не распознает источник звука, если его нет на видео. Грауман и Гао планируют продолжить работу над своим изобретением и расширить его функциональность.

Сингапурские ученые научили ИИ определять по шумам в легких проблемы с сердцем. Устройство, напоминающее стетоскоп, улавливает звуки воздуха, проходящего через заполненные жидкостью легкие, и передает их на сервер, где их обрабатывают алгоритмы.

Также по теме

Кейсы

Как работает Orange Fab Russia - корпоративный b2b акселератор Orange

Кейсы

Ученый хакнул ChatGPT, внедрив в систему ложные воспоминания

Кейсы

Робопса Spot взяли на работу в полицию

Кейсы

Экспериментальный материал впитывает влагу из помещений

Новости СМИ2