Hitech logo

Кейсы

DeepMind представила новый ИИ, делающий роботов умнее и способнее

TODO:
Екатерина Шемякинская1 августа 2023 г., 12:48

Google DeepMind анонсировала Robotics Transformer 2 (RT-2) — первую модель визуального языка и действия (VLA), которая позволяет роботам выполнять новые задачи без специальной подготовки. По аналогии с тем, как языковые модели изучают общие идеи и концепции из данных в сети, RT-2 использует текст и изображения из интернета для понимания различных концепций реального мира и преобразования этих знаний в инструкции для роботов. Это открывает перспективы для создания адаптируемых роботов, способных выполнять задачи в разных ситуациях и средах с минимальным обучением.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Еще в 2022 году DeepMind представила RT-1 — многозадачную модель, которая обучалась на 130 000 демонстраций и позволяла роботам выполнять более 700 задач с вероятностью успеха 97%. Теперь, используя демонстрационные данные RT-1 с наборами веб-данных, компания обучила преемника модели — RT-2.

Считается, что специальное обучение роботов, охватывающее каждый отдельный объект, среду и ситуацию, имеет решающее значение для решения сложных абстрактных задач в меняющихся средах. Особенность RT-2 заключается в том, что, в отличие от RT-1 и других моделей, для работы робота не требуются сотни тысяч точек данных.

RT-2 изучает сложные рассуждения, характерные для основных моделей, используя лишь небольшой объем данных о роботах, и переносит усвоенные знания для прямого управления роботами — даже для задач, с которыми он ранее не сталкивался или не обучался их выполнять. Google объясняет, что RT-2 демонстрирует улучшенные способности к обобщению и семантическому и визуальному пониманию, выходя за пределы робототехнических данных, с которыми он сталкивался.

По словам Винсента Ванхоука, главы отдела робототехники в Google DeepMind, обучение робота выбрасыванию мусора ранее означало прямое обучение робота распознавать мусор, а также подбирать его и выбрасывать. Но с RT-2, который обучается на веб-данных, в этом нет необходимости. Модель уже имеет общее представление о том, что такое мусор, и распознает его без специального обучения. У него даже есть представление о том, как выбрасывать мусор, хотя его никогда не обучали этому действию.

При решении видимых задач во внутренних тестах RT-2 показал себя так же хорошо, как RT-1. Однако для новых, ранее неизвестных сценариев его производительность почти удвоилась до 62% по сравнению с 32% у RT-1.

Усовершенствованные модели визуального языка и действия, такие как RT-2, могут привести к созданию контекстно-зависимых роботов, которые способны рассуждать, решать проблемы и интерпретировать информацию для выполнения разнообразных действий в реальном мире в зависимости от текущей ситуации. Например, вместо роботов, выполняющих одни и те же повторяющиеся действия на складе, предприятия могли бы внедрить машины, которые способны обрабатывать каждый объект по-разному, учитывая тип объекта, вес, хрупкость и другие факторы.