Увеличение количества данных помогает роботам осваивать универсальные навыки. Однако объемы информации, используемые для обучения роботов, сильно меньше по сравнению с датасетами, применяемыми в передовых моделях искусственного интеллекта для задач компьютерного зрения и обработки естественного языка. Сбор разнообразных и релевантных сведений из реального мира для обучения и адаптации роботов — долгий и трудоемкий процесс.
Есть несколько подходов к решению проблемы. Проект Open-X Embodiment объединяет информацию с 60 роботов, чтобы они могли учиться друг у друга. Но у этого метода есть проблема: в данных слишком много информации о конкретных роботах, а углы обзора камеры ограничены. Из-за этого устройства «запоминают» ограниченные сведения и не справляются с новыми задачами, если им показывают в качестве примера робота другого типа или меняют положение камеры. Другой алгоритм, Mirage, адаптирует неизвестных роботов с помощью «перекрестной окраски», делая их похожими на моделей из обучающей выборки. Но Mirage не поддерживает тонкую настройку, а большие изменения камеры сбивают алгоритм с толку.
Исследователи из Калифорнийского университета в Беркли представили метод RoVi-Aug, который призван преодолеть эти ограничения.
В отличие от традиционных подходов, объединяющих данные различных роботов, RoVi-Aug фокусируется на обучении моделей пониманию взаимосвязи между действиями робота и выполняемыми задачами.
Новая архитектура генерирует синтетические визуальные демонстрации, варьирующиеся по типу робота и углу обзора камеры, что повышает универсальность процесса обучения. Технология состоит из двух компонентов. Модуль дополнения данных о роботе (Ro-Aug) создает демонстрации с различными роботизированными системами. Модуль дополнения данных о точке зрения (Vi-Aug) имитирует демонстрации с разных ракурсов камеры.
Сочетание этих модулей создает более разнообразный датасет для обучения роботов. Это позволяет устройствам тренироваться на большем количестве сценариев. В результате они становятся более гибкими и могут переносить свои навыки между различными задачами и моделями.
При этом сильно сокращается необходимость в сборе больших объемов данных из реального мира.
В отличие от таких методов, как Mirage, RoVi-Aug не требует знания матриц камер и поддерживает тонкую настройку модели, что повышает производительность в сложных задачах. RoVi-Aug также помогает обучать модели для нескольких роботов и задач, используя как исходные, так и дополненные данные.
RoVi-Aug требует доработки в нескольких направлениях. Необходимо повысить устойчивость к изменениям окружения, улучшить качество синтетических данных, унифицировать модели для разных роботов и устранить искажения. Перспективно расширить метод на более сложные манипуляторы, такие как многопалые руки.