Hitech logo

Кейсы

Microsoft показала нейросеть, которая делает говорящие дипфейки по одному фото

TODO:
Дарина Житова19 апреля, 09:31

Microsoft не отстает от OpenAI: компания представила собственный генератор видео. Он создает реалистичный видеоряд по одной картинке и особенно хорошо копирует человеческую мимику. Эксперты уже назвали его кошмарной машиной для дипфейков.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

В последние годы генеративные нейросети значительно продвинулись в развитии, переходя от создания статичных изображений к производству видеоматериалов. Одним из наиболее заметных нововведений в этой области является алгоритм VASA-1 от Microsoft, который позволяет генерировать видео на основе одного изображения и аудиодорожки.

VASA-1 использует продвинутую модель для синхронизации движений лица и губ, создавая высоко реалистичные видео. Этот алгоритм особенно выделяется своей способностью к имитации естественных движений головы и мимики, что добавляет видеоряду живости и правдоподобности.

Технически VASA-1 оперирует в скрытом пространстве лица, где происходит генерация динамики лица и головы. Microsoft подчеркивает, что благодаря инновациям и обширным экспериментам, включая введение новых метрик, их метод значительно превосходит предыдущие по множеству параметров. Алгоритм поддерживает онлайн-генерацию видео с разрешением 512×512 пикселей и частотой 40 кадров в секунду, что минимизирует начальную задержку и позволяет взаимодействовать с реалистичными аватарами в реальном времени.

Несмотря на высокий потенциал для создания фейков, Microsoft описывает VASA-1 как исследовательскую демонстрацию и не планирует выпускать его на коммерческий рынок в ближайшее время.