Hitech logo

Кейсы

NVIDIA представила ИИ для генерации HD-видео по текстовому описанию

TODO:
Екатерина Смирнова20 апреля 2023 г., 09:46

NVIDIA представила ИИ-модель для превращения текста в видео VideoLDM, разработанную вместе с исследователями из Корнельского университета. Модель генерирует видео в разрешении до 2048 × 1280 пикселей с частотой 24 кадра и длительностью до 4,7 секунд, опираясь на текстовое описание. Правда, пока это лишь исследовательский проект и протестировать ИИ не получится.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Модель основана на разработках нейросети Stable Diffusion. Решение NVIDIA имеет до 4,1 миллиарда параметров, но только 2,7 миллиарда из них использовали видео для обучения. Это довольно скромно по меркам современного ИИ. Однако с помощью эффективной модели скрытой диффузии (LDM, Latent diffusion model) разработчики смогли создавать разнообразные и согласованные по времени видеоролики высокой четкости с очень хорошим качеством.

Среди особенностей этой модели исследователи выделяют генерацию персонализированного видео и свёрточный синтез во времени. Временные слои, обученные в VideoLDM для преобразования текста в видео, вставляются в опорные сети изображений LDM, которые предварительно настраиваются в наборе изображений DreamBooth. Временные слои сгруппированы по контрольным точкам DreamBooth, что позволяет персонализировать преобразование текста в видео. Применяя временные слои сверточно во времени, можно получить более длинные клипы с небольшим ухудшением качества.

Модель также создает видеоролики с вождением. Разрешение видео составляет 1024×512 пикселей, а продолжительность до 5 минут. Можно смоделировать конкретный сценарий на дороге. За основу берутся ограничивающие рамки для создания интересующей обстановки, синтезируется соответствующий начальный кадр, а затем выдаются правдоподобные видеоролики. Кроме того, модель делает мультимодальные прогнозы сценариев движения, генерируя несколько вероятных исходов на основе одного начального кадра.

Это исследование участвует в конференции по машинному зрению и распознаванию образов, которая пройдет в Ванкувере 18–22 июня. Пока что представленная нейросеть — это лишь исследовательский проект, и неясно, когда NVIDIA выпустит что-то подобное для широкой аудитории.