Hitech logo

Кейсы

Оптимизированная ИИ-модель DeepMind работает прямо на роботе без доступа в сеть

TODO:
Екатерина Шемякинская25 июня, 08:39

Google DeepMind выпустила офлайн-версию своей модели Gemini Robotics — системы, которая помогает роботам понимать команды, адаптироваться к новым задачам и выполнять действия без предварительного обучения. Теперь модель может работать полностью автономно — прямо на устройстве, без подключения к интернету. Она подходит для разных типов роботов и способна быстро обучаться — всего за 50–100 демонстраций. Новая версия особенно полезна там, где нет стабильного интернета или действуют строгие требования к безопасности.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Флагманская модель Gemini Robotics разработана, чтобы помогать роботам выполнять разные физические задачи, даже те, которым их специально не обучали. Это модель типа Vision-Language-Action (VLA) — она умеет «видеть» окружающий мир, «понимать» язык и на основе этого выполнять нужные действия. Gemini Robotics позволяет роботам быстро адаптироваться к новым ситуациям, правильно интерпретировать команды и выполнять даже те задачи, которые требуют высокой точности и тонкой моторики.

Глава отдела робототехники в Google DeepMind Каролина Парада рассказала, что оригинальная модель Gemini Robotics работала по гибридной схеме: часть функций выполнялась на самом устройстве, а часть — в облаке. Но теперь появилась версия, работающая офлайн, и её возможности почти не уступают флагманской.

Эта модель, работающая прямо на устройстве, может выполнять разные задачи без дополнительной настройки. При этом она способна адаптироваться к новым ситуациям всего за 50-100 показов. Google обучал эту модель на своём роботе ALOHA, но ее успешно применили и на других типах роботов, например, человекоподобном Apollo от Apptronik и двуруком Franka FR3.

По словам представителей компании, локальную версию можно рассматривать как стартовый вариант или как решение для случаев, когда интернет-соединение нестабильно. А еще она будет очень кстати компаниям с особо строгими требованиями к безопасности.

Вместе с этим релизом Google выпускает комплект для разработки программного обеспечения (SDK) для локальной версии модели, который позволит разработчикам тестировать и дорабатывать её. Это первый подобный инструмент среди визуально-языковых моделей от Google DeepMind.

Локальная версия Gemini Robotics и её SDK станут доступны ограниченной группе тестировщиков, пока Google продолжает работать над снижением потенциальных рисков, связанных с безопасностью.