В последние годы генеративные нейросети значительно продвинулись в развитии, переходя от создания статичных изображений к производству видеоматериалов. Одним из наиболее заметных нововведений в этой области является алгоритм VASA-1 от Microsoft, который позволяет генерировать видео на основе одного изображения и аудиодорожки.
VASA-1 использует продвинутую модель для синхронизации движений лица и губ, создавая высоко реалистичные видео. Этот алгоритм особенно выделяется своей способностью к имитации естественных движений головы и мимики, что добавляет видеоряду живости и правдоподобности.
Технически VASA-1 оперирует в скрытом пространстве лица, где происходит генерация динамики лица и головы. Microsoft подчеркивает, что благодаря инновациям и обширным экспериментам, включая введение новых метрик, их метод значительно превосходит предыдущие по множеству параметров. Алгоритм поддерживает онлайн-генерацию видео с разрешением 512×512 пикселей и частотой 40 кадров в секунду, что минимизирует начальную задержку и позволяет взаимодействовать с реалистичными аватарами в реальном времени.
Несмотря на высокий потенциал для создания фейков, Microsoft описывает VASA-1 как исследовательскую демонстрацию и не планирует выпускать его на коммерческий рынок в ближайшее время.