Hitech logo

Обучение машин

Алгоритм научился имитировать объемный звук для большинства видео

TODO:
Георгий Голованов27 декабря 2018 г., 10:39

Благодаря асимметричной форме ушей и расстоянию между ними человек определяет направление к источнику звука. Специалисты Facebook Research и Техасского университета нашли способ правдоподобно сымитировать объемный звук при помощи машинного обучения и пары искусственных ушей.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Мозг человека использует различные приспособления для того, чтобы понять, откуда из трехмерного пространства доносится звук. Один из них — разное время, которое требуется звуку, чтобы достигнуть каждого уха. Звук, идущий слева, очевидно, достигнет до левого уха чуть раньше. Другой способ — разница в объеме. Тот же звук будет восприниматься как более громкий левым ухом, чем правым. Форма уха также помогает мозгу определить, откуда исходит звук, рассказывает MIT Technology Review.

Таким образом, перед желающими воссоздать эту систему искусственно стоит непростая задача. Один из способов — стереофоническая запись. Если разместить в каждом ухе по микрофону, можно зафиксировать эти мельчайшие вариации восприятия звука.

Проанализировав их, ученые могут воспроизвести их при помощи математического алгоритма. Тогда обычные наушники можно превратить в аппарат, создающий трехмерное звучание.

Но поскольку уши у всех разные, все слышат звуки по-своему. Пришлось бы проводить измерения для каждого в отдельности, прежде чем воспроизводить запись. В лаборатории это возможно, но на практике — нет.

Однако, есть способы приблизиться к 3D-звуку без учета индивидуальной формы ушей. Один из них и применили Жохань Гао и Кристен Грауман, чтобы определить, с какой стороны приближается звук, при помощи визуальных подсказок. Система машинного обучения, получив в свое распоряжение видеозапись сцены и монофонического звука, находит его источник и рассчитывает время достижения звуковыми волнами ушных каналов и объем звука.

В результате слушатель воспринимает почти трехмерный звук.

К примеру, на видеозаписи два музыканта, барабанщик и клавишник, один слева, другой справа. Алгоритм распознает это и распределяет звуковые потоки соответственно: ударные — налево, синтезатор — справа.

Для обучения алгоритма ученые собрали базу данных примеров и сделали стереофонические записи свыше 2000 видеоклипов. Чтобы сымитировать слуховой аппарат человека, они изготовили два искусственных уха, закрепили их на болванке шириной с голову человека и дополнили систему камерой GoPro.

Результат можно услышать тут (не забудьте надеть наушники):

Авторы назвали свой звук 2,5D по причине того, что система не персонализирует звук под отдельного пользователя. Также она не распознает источник звука, если его нет на видео. Грауман и Гао планируют продолжить работу над своим изобретением и расширить его функциональность.   

Сингапурские ученые научили ИИ определять по шумам в легких проблемы с сердцем. Устройство, напоминающее стетоскоп, улавливает звуки воздуха, проходящего через заполненные жидкостью легкие, и передает их на сервер, где их обрабатывают алгоритмы.