Boston Dynamics и TRI разрабатывают «сквозные языковые политики» для робота Atlas. Эти алгоритмы позволяют роботу выполнять долгосрочные задачи манипуляции, задействуя весь потенциал человекоподобного форм-фактора — от точного позиционирования ног и смещения центра масс до предотвращения столкновений с самим собой. В основе лежат так называемые большие поведенческие модели (large behavior models, LBM), которые позволяют гуманоидам осваивать новые навыки не через жесткое программирование, а посредством демонстраций человека. Это делает роботов универсальными: чем больше обучена модель, тем меньше примеров ей нужно для формирования надежного и масштабируемого поведения в реальных средах.
Atlas отличается высокой степенью подвижности и точности: его 78 степеней свободы обеспечивают широкий диапазон движений, а в версии Atlas MTS (по сути, верхняя часть тела Atlas) используется 29 степеней свободы. Захваты с семью степенями свободы позволяют применять разные стратегии — от силового до щипкового захвата. Для ориентации робот оснащён стереокамерами HDR, а управление строится на системе MPC, которая обеспечивает плавные и динамичные движения, а также помогает сохранять равновесие. Этот комплекс решений позволяет Atlas выполнять как прикладные задачи, так и сложные демонстрации вроде паркура и танцев.
Большие поведенческие модели от TRI построены на архитектуре диффузионного преобразователя с 450 млн параметров. Эти политики используют изображения с камер и данные проприоцепции, принимают языковые подсказки и прогнозируют последовательности из 48 действий (около 1,6 секунды), выполняя при каждом запуске 24 действия за 0,8 секунды при скорости 1x. Действия затрагивают суставы рук и ног, шею и торс. Atlas MTS использует те же наблюдения и действия, что и полноценный Atlas, что позволяет объединять данные обеих версий.
В Boston Dynamics отмечают, что обучение одной нейросети множеству задач дает лучшие результаты, чем узкоспециализированные модели.
Процесс обучения политик включает четыре этапа: сбор данных с помощью телеуправления, обработку и аннотацию информации, обучение нейросетей и тестирование на реальных задачах. Это позволяет быстро выявлять пробелы, добавлять новые данные и совершенствовать архитектуру модели.
Для обеспечения высокой вариативности поведения компания использует систему телеуправления на базе VR. Оператор управляет Atlas интуитивно: движения рук и ног человека повторяются роботом в реальном времени. Система обеспечивает точные манипуляции, а стереокамеры передают пространственное восприятие для дополненной реальности и тактильной обратной связи. Дополнительные трекеры ног расширяют возможности передвижения. При этом нейросетевые политики используют тот же интерфейс, что позволяет собирать качественные данные для обучения ИИ и тестировать новые модели.
Одним из примеров стал эксперимент Spot Workshop, где Atlas показал скоординированные движения и манипуляции: переносил детали, открывал контейнеры и справлялся с нештатными ситуациями вроде падения предмета или закрытия крышки.
Благодаря датчикам и накоплению опыта робот теперь способен самостоятельно восстанавливаться после сбоев без доработки алгоритмов. Atlas также выполняет задачи, недоступные при традиционном программировании, например, завязывание веревки и расстилание скатерти.
В компании признают, что до полного внедрения гуманоидов в повседневную жизнь еще далеко, однако сделанные шаги создают фундамент для масштабной автоматизации. В ближайшее время Boston Dynamics планирует расширять набор задач, улучшать качество данных и исследовать новые алгоритмические подходы, в том числе обучение с подкреплением и модели «зрение-язык-действие».