Основа системы — несколько мощных моделей. Сначала создаётся картинка с помощью Imagen 3. Затем она превращается в видео благодаря модели Veo 2. Там можно выбрать тип движения камеры, например, панораму или съёмку с дрона, задать частоту кадров и длительность. Если в видео появляются нежелательные элементы, их можно удалить функцией, похожей на Magic Eraser в телефонах Pixel.
Когда визуальная часть готова, Media Studio добавляет озвучку через модель синтеза речи Chirp. Для музыкального сопровождения используется Lyria — эту модель Google разработала совместно с YouTube и DeepMind.
Итог — полноценное видео, которое выглядит профессионально и готово к публикации. Все этапы, от создания изображения до озвучивания, происходят внутри одной платформы Vertex AI Studio. Это та же среда, где разработчики тестируют модели семейства Gemini. Эти модели работают с текстом, изображениями и кодом, что позволяет экспериментировать с разными задачами прямо в интерфейсе.
Платформа предназначена не только для технических специалистов. Её интерфейс понятен и тем, кто никогда не занимался видеомонтажом. С помощью Vertex AI можно быстро собрать видео на любую тему — от презентации до ролика для соцсетей.
При этом Google понимает, что появление таких инструментов снова поднимает вопросы об авторском праве и этике. Но в компании считают, что спрос на удобные и быстрые решения для создания контента только растёт — особенно среди тех, кто не работает с видео профессионально.