Hitech logo

искусственный интеллект

Программа создает реалистичные видео из одной фотографии и аудиозаписи

TODO:
Дарина Житова17 ноября 2023 г., 16:30

Исследователи из Наньянгского технологического университета в Сингапуре разработали компьютерную программу, которая создает реалистичные видео, отражающие мимику и движения головы говорящего человека, используя только аудиозапись и фотографию лица.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Эта программа, названная DIRFA (Diverse yet Realistic Facial Animations), основана на искусственном интеллекте и способна создавать 3D-видео с реалистичной и последовательной анимацией лица, синхронизированной с аудиозаписью.

DIRFA улучшает существующие подходы к анимации цифровых аватаров, которые испытывают трудности с вариацией поз и изображением эмоций. Команда обучила программу на более чем миллионе аудиовизуальных клипов от 6000 человек, взятых из открытой базы данных VoxCeleb2 Dataset. Теперь она может предсказывать речевые сигналы и связывать их с мимикой и движениями головы.

Исследователи говорят, что создание реалистичных лицевых выражений на основе аудио — это сложная задача. Для каждого аудиосигнала может быть много подходящих выражений лица и их количество увеличивается, если таких сигналов много и они последовательны. Один и тот же текст можно произносить серьезно, а можно иронично и кривляясь. Мы получаем точную информацию о намерениях собеседника из его мимики, но ПО для анимации цифровых аватаров часто упускает это.

Речь тесно связана с движениями губ, а на втором месте по важности — выражения лица и положение головы. Поэтому команда сосредоточилась на анимированных аватарах с точными движениями губ, разнообразной мимикой и естественными движениями головы, соответствующими аудио.

Ученые отметили, что DIRFA можно использовать в приложениях для разных областей жизни, включая здравоохранение. Она позволит создавать более сложных и реалистичных виртуальных помощников и чат-боты, улучшая пользовательский опыт. Она также будет полезной для людей с нарушениями речи или лицевой мимики, помогая им передавать мысли и эмоции через выразительные аватары.