ИИ реконструирует изображение улицы по звукам

Кейсы

Екатерина Шемякинская4 декабря 2024 г., 08:07

Екатерина Шемякинская4 декабря 2024 г., 08:07

Уже существуют ИИ-системы, которые генерируют звуковые эффекты, соответствующие изображениям городских улиц и других мест. Ученые из Техасского университета в Остине создали технологию, которая делает прямо противоположное — с высокой точностью преобразует звук улиц в визуальные образы. Новая модель, обученная на 10-секундных аудиовизуальных клипах с городских и сельских территорий разных континентов, способна генерировать изображения, соответствующие звуковому ландшафту. ИИ отражает даже такие детали, как освещение и пропорции зелени или зданий.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

«Модель диффузии звукового ландшафта в изображение» была обучена на наборе данных из 10-секундных аудиовизуальных клипов. Эти ролики включали в себя неподвижные изображения и фоновые звуки, взятые из видео на YouTube, снятых на городских и сельских улицах Северной Америки, Азии и Европы. С помощью алгоритмов глубокого обучения система научилась не только сопоставлять звуки с конкретными элементами на изображениях, но и связывать звуковые характеристики с определенными визуальными средами.

Создан цемент, охлаждающий стены на 5,4°C под палящим солнцем

Когда обучение модели закончилось, ей поручили сгенерировать картинки по звукам. ИИ предоставили 100 звуковых записей с улиц и попросили для каждой создать свое изображение. Затем группе людей показали каждое из этих изображений вместе с двумя сгенерированными снимками других улиц. Одновременно воспроизводилась звуковая дорожка, на основе которой было создано изображение. Участников попросили выбрать, какая картинка лучше всего подходит к звуку. В среднем, они угадывали правильно в 80% случаев.

При компьютерном анализе полученных изображений было обнаружено, что относительные пропорции открытого неба, зелени и зданий сильно коррелируют с соответствующими показателями в исходных роликах. Во многих случаях сгенерированные изображения отражали условия освещения в видео — солнечный свет, облачность или ночное время. Вероятно, это связано с такими факторами, как снижение уровня транспортного шума ночью или появление звуков ночных насекомых.

Технология может найти применение в криминалистике, например, чтобы определять, где была сделана запись. Однако исследование в большей степени направлено на изучение того, как звук влияет на наше чувство места. Полученные результаты могут расширить знания о влиянии зрительного и слухового восприятия на психическое здоровье, стать основой для разработки новых подходов к городскому планированию и способствовать повышению общего качества жизни в сообществах, утверждают ученые.

Также по теме

Кейсы

Робот для автономного ремонта дорог на 90% снижает затраты на их содержание

Кейсы

OpenAI разрешила создавать ИИ-агентов для автономного серфинга в сети и управления ПК

Кейсы

Eutelsat протестировала связь 5G на низкой орбите

Кейсы

Polestar представила концепт электрического седана Precept

Новости СМИ2