Logo
Cover

Новая среда обучения ИИ переносит опыт в новое окружение. Выглядит она как игра-платформер, но открывает серьезную перспективу создания гибких и «разумных» алгоритмов.

105

Обучение с подкреплением — одна из главных технологий машинного обучения. Она полирует алгоритм методом кнута и пряника — вручая награды за верный результат. Но есть проблема: такой подход не позволяет создать модели с высоким уровнем генерализации. Проще говоря, обученные в определенном окружении ИИ-агенты не могут перенести свой опыт на новые обстоятельства.

Эту проблему пытается решить платформер CoinRun, созданный на базе обучающей программы Spinning Up. Она знакомит с основами глубокого обучения с подкреплением и также разработана специалистами OpenAI, рассказывает VentureBeat.

«CoinRun достигает желаемого баланса сложности: окружение намного проще, чем в традиционных платформерах вроде Sonic the Hedgehog, но все еще представляет сложность для современных алгоритмов, — говорится в блоге OpenAI. — Уровни CoinRun генерируются процедурно, предоставляя агентам доступ к обширному запасу легко измеримых обучающих данных».

Как объясняет OpenAI, предшествующие работы по созданию среды для обучения с подкреплением сосредотачивались на процедурно создаваемых лабиринтах и играх типа Sonic the Hedgehog, в которых успех обучения измерялся после прохождения нескольких уровней. В CoinRun же агент получает вознаграждение в конце каждого уровня.

Кроме того, OpenAI разработала две дополнительных среды для исследования переобучения — ситуации, когда задача слишком хорошо выполняется на обучающей выборке, и плохо — на других массивах данных.

Для оценки эффективности CoinRun команда разработчиков протестировала 9 ИИ-агентов, каждый из которых прошел разное число обучающих уровней. Первым восьми досталось от 100 до 16 000 уровней, а последнему около двух миллионов. Он и оказался самым успешным учеником.

«При помощи процедурно сгенерированной среды CoinRun мы можем точно измерить это переобучение, — сказано в пресс-релизе. — С этой метрикой мы лучше оценим ключевые архитектурные и алгоритмические решения. Мы считаем, что уроки, усвоенные в этой среде, могут быть перенесены на более сложные условия. И надеемся использовать это тестирование и ему подобные для подготовки более генеральных агентов».

В начале прошлого месяца Facebook открыла доступ к платформе машинного обучения с подкреплением Horizon. Она обладает уникальными навыками работы с огромными массивами реальных данных.