Флагманская модель Gemini Robotics разработана, чтобы помогать роботам выполнять разные физические задачи, даже те, которым их специально не обучали. Это модель типа Vision-Language-Action (VLA) — она умеет «видеть» окружающий мир, «понимать» язык и на основе этого выполнять нужные действия. Gemini Robotics позволяет роботам быстро адаптироваться к новым ситуациям, правильно интерпретировать команды и выполнять даже те задачи, которые требуют высокой точности и тонкой моторики.
Глава отдела робототехники в Google DeepMind Каролина Парада рассказала, что оригинальная модель Gemini Robotics работала по гибридной схеме: часть функций выполнялась на самом устройстве, а часть — в облаке. Но теперь появилась версия, работающая офлайн, и её возможности почти не уступают флагманской.
Эта модель, работающая прямо на устройстве, может выполнять разные задачи без дополнительной настройки. При этом она способна адаптироваться к новым ситуациям всего за 50-100 показов. Google обучал эту модель на своём роботе ALOHA, но ее успешно применили и на других типах роботов, например, человекоподобном Apollo от Apptronik и двуруком Franka FR3.
По словам представителей компании, локальную версию можно рассматривать как стартовый вариант или как решение для случаев, когда интернет-соединение нестабильно. А еще она будет очень кстати компаниям с особо строгими требованиями к безопасности.
Вместе с этим релизом Google выпускает комплект для разработки программного обеспечения (SDK) для локальной версии модели, который позволит разработчикам тестировать и дорабатывать её. Это первый подобный инструмент среди визуально-языковых моделей от Google DeepMind.
Локальная версия Gemini Robotics и её SDK станут доступны ограниченной группе тестировщиков, пока Google продолжает работать над снижением потенциальных рисков, связанных с безопасностью.