Обучение с подкреплением — одна из главных технологий машинного обучения. Она полирует алгоритм методом кнута и пряника — вручая награды за верный результат. Но есть проблема: такой подход не позволяет создать модели с высоким уровнем генерализации. Проще говоря, обученные в определенном окружении ИИ-агенты не могут перенести свой опыт на новые обстоятельства.
Эту проблему пытается решить платформер CoinRun, созданный на базе обучающей программы Spinning Up. Она знакомит с основами глубокого обучения с подкреплением и также разработана специалистами OpenAI, рассказывает VentureBeat.
«CoinRun достигает желаемого баланса сложности: окружение намного проще, чем в традиционных платформерах вроде Sonic the Hedgehog, но все еще представляет сложность для современных алгоритмов, — говорится в блоге OpenAI. — Уровни CoinRun генерируются процедурно, предоставляя агентам доступ к обширному запасу легко измеримых обучающих данных».
Как объясняет OpenAI, предшествующие работы по созданию среды для обучения с подкреплением сосредотачивались на процедурно создаваемых лабиринтах и играх типа Sonic the Hedgehog, в которых успех обучения измерялся после прохождения нескольких уровней. В CoinRun же агент получает вознаграждение в конце каждого уровня.
Кроме того, OpenAI разработала две дополнительных среды для исследования переобучения — ситуации, когда задача слишком хорошо выполняется на обучающей выборке, и плохо — на других массивах данных.
Для оценки эффективности CoinRun команда разработчиков протестировала 9 ИИ-агентов, каждый из которых прошел разное число обучающих уровней. Первым восьми досталось от 100 до 16 000 уровней, а последнему около двух миллионов. Он и оказался самым успешным учеником.
«При помощи процедурно сгенерированной среды CoinRun мы можем точно измерить это переобучение, — сказано в пресс-релизе. — С этой метрикой мы лучше оценим ключевые архитектурные и алгоритмические решения. Мы считаем, что уроки, усвоенные в этой среде, могут быть перенесены на более сложные условия. И надеемся использовать это тестирование и ему подобные для подготовки более генеральных агентов».
В начале прошлого месяца Facebook открыла доступ к платформе машинного обучения с подкреплением Horizon. Она обладает уникальными навыками работы с огромными массивами реальных данных.