Hitech logo

Кейсы

Новая модель Google DeepMind создает 3D-миры в реальном времени

TODO:
Екатерина Шемякинская6 августа, 08:54

Google DeepMind анонсировала Genie 3 — модель, способную создавать динамичные 3D-среды с сохранением контекста до нескольких минут. Система генерирует интерактивные миры с разрешением 720p на основе текстовых запросов, позволяя пользователям и ИИ-агентам взаимодействовать с виртуальным окружением. Ключевое отличие от предыдущих версий — способность запоминать состояние объектов. Если пользователь отвернется от стены с надписью, а затем снова посмотрит на нее, текст останется на месте. Разработка открывает новые возможности для обучения ИИ, игровой индустрии и виртуальных симуляций.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Модель мира (World model) — это инструмент, генерирующий виртуальное окружение на основе текстовых подсказок. Вместо ручной разработки 3D-ресурсов, такие модели создают пространства «на лету», что особенно важно для образовательных, исследовательских и игровых приложений. Это направление, в которое Google вкладывает большие усилия. В декабре компания представила Genie 2, способный создавать интерактивные миры на основе изображения. Google также создает команду по моделям мира, которую возглавит бывший соруководитель инструмента генерации видео OpenAI Sora.

Genie 3 создан на основе Genie 2 и видеогенератора DeepMind Veo 3, который, как утверждается, обладает глубоким пониманием физики. Главное улучшение новой версии — возможность сохранять непрерывную последовательность виртуального мира в течение нескольких минут, тогда как Genie 2 могла поддерживать ее лишь 10–20 секунд. При этом Genie 3 создает интерактивные миры в разрешении 720p с частотой 24 кадра в секунду, используя простые текстовые команды.

Google утверждает, что Genie 3 способна сохранять визуальную информацию на протяжении минуты: если пользователь отворачивается от объекта, а затем возвращает к нему взгляд, такие детали, как цвет стен или надписи на доске, останутся на своих местах. Причем исследователи не закладывали это в модель явным образом. Еще одной новой функцией стали «события в подсказках мира».

Теперь пользователь может менять погоду, добавлять персонажей и объекты с помощью текстовых команд. Это позволяет моделировать более сложные и динамичные сценарии.

Genie 3 использует авторегрессионную генерацию кадров — каждый новый кадр строится на основе предыдущих, что требует от модели понимания физики и контекста. При этом ИИ не полагается на заранее просчитанные физические движки, а самостоятельно «учится», как объекты взаимодействуют между собой, что делает симуляции гибкими и адаптивными.

Genie 3 будет полезен в образовании, играх и творчестве, но его ключевой потенциал — в обучении агентов. Способность Genie 3 запоминать и поддерживать целостность мира позволит ИИ-агентам лучше понимать физику происходящего — так же, как человек предугадывает, что стакан упадет с края стола, или инстинктивно уклоняется от падающего предмета. Модель не просто создаёт окружение, но и помогает агентам учиться через взаимодействие. Так, в одном из тестов агент SIMA выполнил задачи в виртуальном складе, например, подошёл к нужному объекту или добрался до заданной точки. Это стало возможным благодаря тому, что Genie 3 сохраняет логическую последовательность событий в моделируемом мире.

Научный сотрудник DeepMind Джек Паркер-Холдер считает, что миры, создаваемые Genie 3, могут приблизить нас к новому этапу развития ИИ, когда агенты смогут не просто реагировать на данные, а планировать, адаптироваться и проявлять инициативу в сложных средах.

«Мы пока не видели „момента 37-го хода“ для воплощенных агентов. Но, возможно, теперь приближаемся к нему», — сказал он, имея в виду знаковый эпизод в истории ИИ. В 2016 году AlphaGo совершила неожиданный и гениальный 37-й ход в го против чемпиона мира Ли Седоля, продемонстрировав, что ИИ способен на нестандартное, стратегическое мышление.

Genie 3 доступна только в рамках предварительного исследования и предназначена для ограниченного круга ученых и разработчиков. Модель пока поддерживает лишь несколько минут непрерывного взаимодействия, тогда как для полноценного обучения требуется гораздо больше времени. Функционал агентов ограничен, а сложные взаимодействия между несколькими персонажами реализовать пока трудно. Кроме того, в визуализации иногда возникают ошибки, например, в одной демонстрации снег не реагировал на движение лыжника.