Метод не требует обучения на каждой отдельной фотографии, полагается не только на распознание лиц и рассматривает широкий спектр сценариев. Он основан на модели диффузии движения человека в 3D и на новейшей диффузной архитектуре, которая дополняет модели преобразования текста в изображение пространственным и временным контролем.
Разработчики оценили VLOGGER по трём разным критериям и пришли к выводу, что новая модель превосходит прежние технологии по качеству изображения, сохранению идентичности и временной согласованности. Это значит, что человек на видео очень похож на самого себя и вовремя совершает движения, например, качает головой. Обучали новинку на передовом наборе данных MENTOR, который многократно превосходил предшественника, в котором было 2200 часов видео с 800 тысячами разных людей.
Google видит несколько сфер применения для этой разработки. Первая — дубляж фильмов и другого контента. Например, в оригинале человек говорит по-английски. VLOGGER позволит изменить его мимику и движения губ под русскоязычную, китайскую, испанскую и любую другую аудиодорожку.
Во-вторых, можно будет создавать аватары для соцсетей, игр и презентаций. Возможно, актёры будут заключать контракты со студиями на использование видео с их двойниками. Кроме того, могут появиться продвинутые чат-боты, которых можно будет увидеть и услышать в реальном времени. В школьных учебниках будущего аватары исторических личностей смогут сами рассказать ученикам о своей жизни.
Конечно, у технологии есть и применение в серой законодательной зоне. Она позволит создавать более качественные и реалистичные дипфейки. Однако это вина не разработчиков, а лакун в законодательстве, которое не успевает за развитием ИИ.
Пока что видео имеют недочёты. Где-то они выглядят неестественно; нельзя регулировать движение автора в пространстве, например, шаги туда-сюда. Видеоролики получаются короткими, длинной около пары минут. Но VLOGGER все равно можно считать прорывом. У разработки впереди большой путь, в конце которого можно будет производить сверх-реалистичные многочасовые видео по одной фотографии.