«Политика» робота — набор правил, определяющих его действия на основе полученных сенсорных данных. Это могут быть визуальные образы с камер или информация о положении и скорости частей, например, роботизированной руки. На основании этого робот принимает решение о том, какие движения совершить. Чтобы научить робота следовать этим инструкциям, применяется имитационное обучение — человек демонстрирует нужные действия или управляет роботом дистанционно. Данные о действиях человека и состоянии робота используются для обучения модели искусственного интеллекта. ИИ анализирует их и выявляет закономерности, позволяющие роботу самостоятельно выполнять аналогичные действия. Однако у такого подхода есть ограничения. Поскольку модель обучается на ограниченном объеме данных, специфичных для конкретной задачи, робот может столкнуться с трудностями при выполнении новых задач или в измененных условиях окружающей среды.
Пытаясь решить эту проблему, ученые вдохновлялись большими языковыми моделями (БЯМ), такими как GPT-4. Эти модели проходят предварительное обучение на огромном массиве разнообразных текстовых данных, а затем дообучаются на небольшом объеме данных, специфичных для конкретной задачи. Благодаря предварительному обучению модели лучше адаптируются и выполняют задачи.
В случае больших языковых моделей данные — это просто предложения. У роботов же это могут быть разные форматы: от изображений с камер до текстовых команд и карт глубины. Кроме того, каждый робот имеет уникальную конструкцию, с различным количеством и расположением манипуляторов, захватов и датчиков. Наконец, условия, в которых собираются данные, могут сильно отличаться друг от друга. Чтобы объединить все это, нужна новая архитектура. Исследователи разработали систему, которая объединяет данные из различных модальностей и доменов. Ее назвали «Гетерогенные предварительно обученные преобразователи» (HPT).
В качестве центрального элемента архитектуры исследователи использовали трансформатор — модель машинного обучения, аналогичную тем, что лежат в основе БЯМ. Эта модель способна обрабатывать как визуальную информацию, так и положение робота в пространстве (проприоцепцию). Для этого исследователи преобразовали оба типа данных в единый формат — токены, которые затем подаются на вход трансформатора. При этом каждый входной набор представлен фиксированным числом токенов.
Затем трансформатор объединяет все входные данные в единое пространство признаков, постепенно превращаясь в масштабную предварительно обученную модель.
Чем больше информации модель обрабатывает, тем точнее становятся ее предсказания. Пользователю необходимо лишь предоставить модели немного сведений, специфичных для его робота (конструкция, настройки, задача), и модель, опираясь на предварительно полученные знания, быстро адаптируется к новой задаче. Набор данных для предварительного обучения трансформатора включал в себя 52 датасета, содержащих более 200 000 траекторий движения роботов. Их собрали из различных источников, включая видеозаписи действий человека и результаты симуляций.
HPT улучшил производительность робота более чем на 20% в симуляциях и реальных задачах по сравнению с обучением с нуля. Даже когда задача сильно отличалась от данных предварительного обучения, HPT все равно улучшал производительность. В будущем это поможет создавать универсальных роботов, способных взять на себя много разных обязанностей и быстро учиться.