Hitech logo

Кейсы

Новая нейросеть от Runway AI генерирует видео по текстовому описанию

TODO:
Екатерина Шемякинская21 марта 2023 г., 17:33

Искусственный интеллект добился значительных успехов в генерации изображений, что доказывают такие сервисы, как Dall-E или Stable Diffusion. Следующий этап — генерация видео, которое будет неотличимо от снятого в реальном мире. Стартап Runway AI быстро прогрессирует в этом направлении — он представил нейросеть Gen 2, которая создает короткие видео по текстовому описанию.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Генеративная нейросеть Gen 2 от Runway AI способна выдавать короткие видео, исходя из текстового описания в несколько слов. Достаточно ввести, например, «кошка, идущая под дождём», после чего ИИ-алгоритм сгенерирует 3-секундное видео, демонстрирующее это или что-то очень похожее. Пользователи также могут загрузить изображение в качестве ориентира или подсказки. Но нейросеть Runway AI пока доступна не всем. Желающим опробовать ее нужно зарегистрироваться на сайте разработчиков и добавить себя в лист ожидания. Компания планирует добавлять новых пользователей каждую неделю.

Runway AI разрабатывает инструменты на основе искусственного интеллекта с 2018 года и в прошлом году привлекла $50 млн инвестиций. Стартап помогал в разработке оригинальной версии Stable Diffusion, которая способна генерировать изображения по текстовому описанию.

Во время демонстрации возможностей ИИ разработчики попросили его создать видео «съёмки пустынного пейзажа с дрона». Несколько минут нейросеть обрабатывала запрос, и выдала ролик, соответствующий предложенному описанию, хоть и немного искаженный.

Другие видео показывают как сильные, так и слабые стороны системы. Например, изображение глазного яблока крупным планом выглядит четким и похожим на человеческий, в то время как клип туриста, идущего по джунглям, показывает, что ИИ не может сгенерировать реалистично выглядящие ноги и движения при ходьбе. Дело в том, что модель еще не совсем «разобралась», как точно изображать движущиеся объекты. «Вы можете сгенерировать автомобильную погоню, но иногда машины могут улетать», — рассказали в Runway AI.

Gen 2 способна менять уже готовые видео: накладывать маски, добавлять стилизацию или полностью перестраивать картинку. Например, с помощью масок нейросеть заменила в видео лабрадора на далматинца. Также Gen 2 превратила несколько поставленных на ребро блокнотов в ночной мегаполис. Из очень упрощенной 3D-модели ИИ сделал почти кинематографическую картинку. Еще одна функция — анимирование фотографий.

Представленный алгоритм Gen 2 — логичное продолжение созданной ранее нейросети Gen 1, работавшей с видео в качестве источника данных. Тестирование алгоритма началось в феврале. Сейчас у инструмента уже тысячи пользователей. Однако видео, которые генерируют обе версии нейросети, беззвучны. Runway AI проводит исследования в области генерации звука в надежде создать систему, которая будет автоматически генерировать не только изображения и видео, но и подходящий им звук.