В своем блоге OpenAI сообщает, что Sora способна создавать сложные сцены с несколькими персонажами, сложными движениями камеры и точными деталями объекта и фона. Модель понимает, как объекты «существуют в физическом мире», а также точно интерпретирует реквизит и создает убедительных персонажей с яркими эмоциями.
Модель может генерировать видео на основе неподвижного изображения, а также заполнять недостающие кадры существующего видео или расширять его. Например, Sora сгенерировала исторические кадры Калифорнии во время золотой лихорадки, видео изнутри токийского поезда, мультяшного танцующего кролика и многое другое. Правда, некоторые примеры выдают ИИ. Так, на видео из музея пол двигается. OpenAI признает, что модель может ошибаться в моделировании физики сложной сцены и неправильно интерпретировать причину и следствие. Но результаты, в целом, довольно впечатляющие.
Модели преобразования текста в видео начали совершенствоваться удивительными темпами. Такие компании, как Runway и Pika, продемонстрировали собственные ИИ-модели, а Google Lumiere считается одним из основных конкурентов OpenAI в этой области. Подобно Sora, Lumiere предоставляет пользователям инструменты для преобразования текста в видео, а также позволяет создавать видео из неподвижного изображения. Примеры видеороликов Sora выделяются четкостью разрешения, плавностью движений, точностью анатомии и физического мира и, самое главное, длительностью — 60 секунд. Для сравнения: Runway и Pika предлагают всего четыре секунды генерации за раз с возможностью расширения.
Пока Sora доступна только «красным командам», которые оценивают модель на предмет потенциального вреда и рисков. OpenAI также предлагает доступ некоторым художникам, дизайнерам и кинематографистам для получения обратной связи.
Как и другим компаниям в сфере искусственного интеллекта, OpenAI придется бороться с дипфейками и недобросовестным использованием реалистичных видеороликов, которые быть ошибочно приняты за настоящие.