Hitech logo

Кейсы

Google представила VLOGGER — ИИ для реалистичного «оживления» фотографий

TODO:
Дарина Житова19 марта, 13:55

В Google разработали ИИ, который создаёт реалистичные анимированные ролики по одной фотографии. Кроме фото, нейросеть способна обрабатывать аудио — тогда она создаёт видеоряд с подходящей мимикой и жестикуляцией. Отличает модель возможность работать не только с лицами — она также анимирует движения тела, например, рук.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Метод не требует обучения на каждой отдельной фотографии, полагается не только на распознание лиц и рассматривает широкий спектр сценариев. Он основан на модели диффузии движения человека в 3D и на новейшей диффузной архитектуре, которая дополняет модели преобразования текста в изображение пространственным и временным контролем.

Разработчики оценили VLOGGER по трём разным критериям и пришли к выводу, что новая модель превосходит прежние технологии по качеству изображения, сохранению идентичности и временной согласованности. Это значит, что человек на видео очень похож на самого себя и вовремя совершает движения, например, качает головой. Обучали новинку на передовом наборе данных MENTOR, который многократно превосходил предшественника, в котором было 2200 часов видео с 800 тысячами разных людей.

Google видит несколько сфер применения для этой разработки. Первая — дубляж фильмов и другого контента. Например, в оригинале человек говорит по-английски. VLOGGER позволит изменить его мимику и движения губ под русскоязычную, китайскую, испанскую и любую другую аудиодорожку.

Во-вторых, можно будет создавать аватары для соцсетей, игр и презентаций. Возможно, актёры будут заключать контракты со студиями на использование видео с их двойниками. Кроме того, могут появиться продвинутые чат-боты, которых можно будет увидеть и услышать в реальном времени. В школьных учебниках будущего аватары исторических личностей смогут сами рассказать ученикам о своей жизни.

Конечно, у технологии есть и применение в серой законодательной зоне. Она позволит создавать более качественные и реалистичные дипфейки. Однако это вина не разработчиков, а лакун в законодательстве, которое не успевает за развитием ИИ.

Пока что видео имеют недочёты. Где-то они выглядят неестественно; нельзя регулировать движение автора в пространстве, например, шаги туда-сюда. Видеоролики получаются короткими, длинной около пары минут. Но VLOGGER все равно можно считать прорывом. У разработки впереди большой путь, в конце которого можно будет производить сверх-реалистичные многочасовые видео по одной фотографии.