Еще в 2022 году DeepMind представила RT-1 — многозадачную модель, которая обучалась на 130 000 демонстраций и позволяла роботам выполнять более 700 задач с вероятностью успеха 97%. Теперь, используя демонстрационные данные RT-1 с наборами веб-данных, компания обучила преемника модели — RT-2.
Считается, что специальное обучение роботов, охватывающее каждый отдельный объект, среду и ситуацию, имеет решающее значение для решения сложных абстрактных задач в меняющихся средах. Особенность RT-2 заключается в том, что, в отличие от RT-1 и других моделей, для работы робота не требуются сотни тысяч точек данных.
RT-2 изучает сложные рассуждения, характерные для основных моделей, используя лишь небольшой объем данных о роботах, и переносит усвоенные знания для прямого управления роботами — даже для задач, с которыми он ранее не сталкивался или не обучался их выполнять. Google объясняет, что RT-2 демонстрирует улучшенные способности к обобщению и семантическому и визуальному пониманию, выходя за пределы робототехнических данных, с которыми он сталкивался.
По словам Винсента Ванхоука, главы отдела робототехники в Google DeepMind, обучение робота выбрасыванию мусора ранее означало прямое обучение робота распознавать мусор, а также подбирать его и выбрасывать. Но с RT-2, который обучается на веб-данных, в этом нет необходимости. Модель уже имеет общее представление о том, что такое мусор, и распознает его без специального обучения. У него даже есть представление о том, как выбрасывать мусор, хотя его никогда не обучали этому действию.
При решении видимых задач во внутренних тестах RT-2 показал себя так же хорошо, как RT-1. Однако для новых, ранее неизвестных сценариев его производительность почти удвоилась до 62% по сравнению с 32% у RT-1.
Усовершенствованные модели визуального языка и действия, такие как RT-2, могут привести к созданию контекстно-зависимых роботов, которые способны рассуждать, решать проблемы и интерпретировать информацию для выполнения разнообразных действий в реальном мире в зависимости от текущей ситуации. Например, вместо роботов, выполняющих одни и те же повторяющиеся действия на складе, предприятия могли бы внедрить машины, которые способны обрабатывать каждый объект по-разному, учитывая тип объекта, вес, хрупкость и другие факторы.