Hitech logo

Кейсы

Новый ИИ позволяет робопсам без долгого обучения преодолевать любые препятствия

TODO:
Екатерина Смирнова8 октября 2023 г., 14:12

Исследователи из Стэнфордского университета и Шанхайского института Ци Чжи разработали новый алгоритм, основанный на компьютерном зрении, который позволяет робопсам справляться с различными препятствиями без детально отработки прохождения каждого из них. На основе только визуальных данных, понимания собственных возможностей и накопленного опыта робопсы самостоятельно решали, как им проходить препятствия, и достигли в этом потрясающих результатов.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Ключевым достижением является то, что экспериментальные робопсы стали автономными в принятии решений — они сами оценивали препятствия на своем пути, соотносили его с пределами своей ловкости и выбирали путь решения проблемы. Для этого ученые объединили восприятие и контроль, используя данные с камеры глубины, установленной на роботе, и машинное обучение для обработки полученной информации и управления движением ног. Это не первые роботы-собаки, демонстрирующие такую ​​ловкость, но они впервые сочетают самодостаточность с широким набором навыков.

Существующие методы обучения роботов-собак основаны на сложных системах вознаграждения, которые необходимо настраивать для каждого конкретного физического препятствия. А значит, эти методы плохо адаптируются к новым или незнакомым средам. Другие подходы пытаются учить роботов, имитируя навыки ловкости других животных на основе реальных данных. Однако такие роботы-собаки не имеют широкого набора навыков и связи их выработки со зрением. Кроме того, оба метода обучения характеризуются низкой скоростью обработки информации.

Ученые создали первое приложение с открытым исходным кодом, которое обучает робопсов с помощью простой системы вознаграждений. Исследователи сначала синтезировали и отточили алгоритм с помощью компьютерной модели, а затем перенесли его на двух реальных робопсов. Во время обучения с подкреплением, роботы пытались двигаться вперед любым удобным для них способом и получали вознаграждение в зависимости от того, насколько хорошо они справлялись. Именно так алгоритм в конечном итоге узнает, как лучше всего подойти к новой задаче.

На практике большинство систем вознаграждения с использованием обучения с подкреплением включают слишком много переменных, что замедляет вычислительную производительность. В этом и заключается превосходство нового упрощенного процесса вознаграждения для робопсов. Ученые основывались на том, насколько далеко вперед смог продвинуться робот и сколько усилий он приложил для этого. Со временем робот осваивает более сложные двигательные навыки, которые позволяют ему продвигаться все дальше.

Команда провела эксперименты с реальными роботами-собаками, чтобы продемонстрировать свой новый подход к гибкости и маневренности в сложных условиях, используя стандартные компьютеры и визуальные данные. Улучшенные робопсы преодолели препятствия, превышающие их высоту более чем в 1,5 раза, перепрыгивали условные провалы, длина которых превышала их длину также более чем в 1,5 раза, ползали под барьерами, высота которых была в три четверти их высоты, и наклонялись, чтобы проскользнуть в щель, которая была уже их ширины.

Ученые надеются использовать достижения в области 3D-видения и графики для добавления реальных данных в моделируемые среды, чтобы вывести свой алгоритм на новый уровень автономности.