«Модель диффузии звукового ландшафта в изображение» была обучена на наборе данных из 10-секундных аудиовизуальных клипов. Эти ролики включали в себя неподвижные изображения и фоновые звуки, взятые из видео на YouTube, снятых на городских и сельских улицах Северной Америки, Азии и Европы. С помощью алгоритмов глубокого обучения система научилась не только сопоставлять звуки с конкретными элементами на изображениях, но и связывать звуковые характеристики с определенными визуальными средами.
Когда обучение модели закончилось, ей поручили сгенерировать картинки по звукам. ИИ предоставили 100 звуковых записей с улиц и попросили для каждой создать свое изображение. Затем группе людей показали каждое из этих изображений вместе с двумя сгенерированными снимками других улиц. Одновременно воспроизводилась звуковая дорожка, на основе которой было создано изображение. Участников попросили выбрать, какая картинка лучше всего подходит к звуку. В среднем, они угадывали правильно в 80% случаев.
При компьютерном анализе полученных изображений было обнаружено, что относительные пропорции открытого неба, зелени и зданий сильно коррелируют с соответствующими показателями в исходных роликах. Во многих случаях сгенерированные изображения отражали условия освещения в видео — солнечный свет, облачность или ночное время. Вероятно, это связано с такими факторами, как снижение уровня транспортного шума ночью или появление звуков ночных насекомых.
Технология может найти применение в криминалистике, например, чтобы определять, где была сделана запись. Однако исследование в большей степени направлено на изучение того, как звук влияет на наше чувство места. Полученные результаты могут расширить знания о влиянии зрительного и слухового восприятия на психическое здоровье, стать основой для разработки новых подходов к городскому планированию и способствовать повышению общего качества жизни в сообществах, утверждают ученые.