Двухэтапный ИИ Facebook научил робота манипулировать предметами всего за четыре часа
Logo
Cover

Специалисты Facebook AI Research серьезно ускорили обучение роботов обращению с обычными бытовыми предметами. Их форма и положение в пространстве теперь не имеют значения.

126

Для того чтобы двурукий робот смог открыть бутылку с водой, ему надо одной рукой взяться за основание, а другой — за крышку, и начать ее откручивать. Эта последовательность шагов называется схемой.

В отличие от технологии обучения с подкреплением, схемы не требуют миллионов примеров, которые обрабатываются часами, днями и даже неделями.

Недавно команда Facebook AI Research придумала, как наделить две руки робота Sawyer способностью выбирать из библиотеки правильные шаги, позволяющие выполнить поставленную задачу, пишет VentureBeat. На каждом этапе агент должен принять решение, какой применить навык и с какими параметрами (к примеру, место приложения силы и ее количество).

Такой подход сложен, но у него есть огромный плюс: робот начинает манипулировать предметами всего через несколько часов после тренировки.

Главное открытие, сделанное инженерами, в том, что для ряда задач процесс обучения можно разделить на две части: 1) изучение схемы задачи, и 2) изучение инструкций выбора подходящей параметризации для различных навыков. Такой подход ускоряет обучение, отчасти потому, что для улучшения похожих навыков можно использовать одни и те же общие данные.

Например, если робот научился поднимать длинную трубу, можно использовать ту же схему, чтобы поднять контейнер.

Во время экспериментов робот, оборудованный камерами, получил задание манипулировать девятью обычными предметами — стеклянным кувшином, футбольным мячом, гаечным ключом и так далее — которые требуют двух рук. Несмотря на то, что учиться пришлось лишь на изображениях, система научилась управляться с этими предметами при помощи 2000 навыков с коэффициентом успеха более 90% за 4–10 часов тренировки.

Робота-манипулятора, наделенного «интуицией», разрабатывают в Google. Он учится хватать и метко кидать предметы, корректируя свои ошибки в процессе самонаблюдения.