Hitech logo

Кейсы

Новая ИИ-модель OpenAI генерирует реалистичные 60-секундные видео

TODO:
Екатерина Смирнова16 февраля, 12:36

OpenAI представила новую модель генерации видео под названием Sora, которая позволяет пользователям создавать фотореалистичные видеоролики продолжительностью до минуты на основе текстовых подсказок. Sora способна генерировать сложные сцены с несколькими персонажами, точными деталями и эмоциями, а также заполнять недостающие кадры существующего видео. Хотя кое-где видны искажения, например, «плавающий» пол, результаты все равно впечатляющие. Доступ к Sora пока ограничен.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

В своем блоге OpenAI сообщает, что Sora способна создавать сложные сцены с несколькими персонажами, сложными движениями камеры и точными деталями объекта и фона. Модель понимает, как объекты «существуют в физическом мире», а также точно интерпретирует реквизит и создает убедительных персонажей с яркими эмоциями.

Модель может генерировать видео на основе неподвижного изображения, а также заполнять недостающие кадры существующего видео или расширять его. Например, Sora сгенерировала исторические кадры Калифорнии во время золотой лихорадки, видео изнутри токийского поезда, мультяшного танцующего кролика и многое другое. Правда, некоторые примеры выдают ИИ. Так, на видео из музея пол двигается. OpenAI признает, что модель может ошибаться в моделировании физики сложной сцены и неправильно интерпретировать причину и следствие. Но результаты, в целом, довольно впечатляющие.

Модели преобразования текста в видео начали совершенствоваться удивительными темпами. Такие компании, как Runway и Pika, продемонстрировали собственные ИИ-модели, а Google Lumiere считается одним из основных конкурентов OpenAI в этой области. Подобно Sora, Lumiere предоставляет пользователям инструменты для преобразования текста в видео, а также позволяет создавать видео из неподвижного изображения. Примеры видеороликов Sora выделяются четкостью разрешения, плавностью движений, точностью анатомии и физического мира и, самое главное, длительностью — 60 секунд. Для сравнения: Runway и Pika предлагают всего четыре секунды генерации за раз с возможностью расширения.

Пока Sora доступна только «красным командам», которые оценивают модель на предмет потенциального вреда и рисков. OpenAI также предлагает доступ некоторым художникам, дизайнерам и кинематографистам для получения обратной связи.

Как и другим компаниям в сфере искусственного интеллекта, OpenAI придется бороться с дипфейками и недобросовестным использованием реалистичных видеороликов, которые быть ошибочно приняты за настоящие.