Обычная версия Spot от Boston Dynamics использует управление с прогнозирующими моделями (Model Predictive Control, MPC). Этот метод создаёт программную модель движений, но накладывает ограничения. MPC не позволяет роботу адаптироваться к условиям и находить новые способы передвижения. Обучение с подкреплением работает иначе. Вместо заранее заданных моделей робот самостоятельно тестирует различные варианты движений в виртуальной среде, пока не находит самый быстрый способ передвигаться. Результаты симуляции затем переносят на реального робота.
Робот передвигается не так, как настоящая собака. Вместо привычной походки он использует особый способ бега, при котором все четыре ноги одновременно отрываются от земли. Этот момент называют фазой полёта. «Его ноги и тело работают не так, как у собаки, поэтому ему не нужно имитировать естественный собачий бег», — объясняет робототехник Фарбод Фаршидиан из RAI.
Ученые думали, что главный фактор, который ограничивает скорость Spot — это приводы. Однако тесты показали, что робот мог бы разгоняться сильнее, если бы у него были более мощные батареи. «Я был удивлён, что мы упёрлись в нехватку энергии», — сказал Фаршидиан. При первых попытках обучения с подкреплением не удалось учесть напряжение батарей, но если добавить эти данные, Spot сможет бегать ещё быстрее.
Метод обучения с подкреплением оказался полезным не только для Spot. Институт RAI применил его для нового робота — автономного велосипеда Ultra Mobility Vehicle (UMV). Этот двухколёсный робот может балансировать, двигаться по сложным маршрутам и даже прыгать на препятствия, которые выше него самого. У UMV нет отдельной физической системы стабилизации, такой как гироскоп, которая предотвращала бы падение. Это обычный велосипед, который может двигаться вперёд и назад, а также поворачивать переднее колесо. В верхней части сконцентрирована максимальная масса, которую приводы могут быстро перемещать вверх и вниз.
Обучение с подкреплением позволило UMV выполнять манёвры, которые раньше были невозможны. Например, робот может ехать задним ходом даже по неровной поверхности. «Это крайне нестабильное движение, которое мы не смогли реализовать с традиционным контроллером MPC», — пояснил директор RAI Institute в Цюрихе Марко Хаттер. Обучение в симуляции позволило роботу понять, как эффективно удерживать равновесие.
Технологию обучения с подкреплением можно применять и для более сложных роботов. Недавно RAI Institute и Boston Dynamics объявили о партнёрстве, чтобы использовать эту методику для управления гуманоидами. Такие роботы имеют больше степеней свободы, что делает их движение слишком сложным для традиционных алгоритмов.
Основная проблема обучения с подкреплением — перенос опыта из симуляции в реальный мир. «Если симулятор даёт роботу награду за правильные действия, он может найти лазейки в алгоритме и использовать их», — объясняет Фаршидиан. Чтобы избежать этого, инженеры используют реальные данные с физических роботов, которые помогают скорректировать симуляции.
Сочетание данных из симуляторов и реальных тестов позволяет роботам лучше адаптироваться к окружающей среде. Это делает обучение с подкреплением перспективным методом не только для Spot и UMV, но и для будущих автономных систем, включая гуманоидных роботов.