Новый алгоритм Alphabet улучшает обучение с подкреплением
Logo
Cover

Обучение с подкреплением — форма машинного обучения методом кнута и пряника — широко используется в робототехнике, синтезе естественной речи и распознавании изображений. К несчастью, она требует массу данных, а значит — времени и ресурсов. Это и заставило исследователей из Google Brain и DeepMind разработать более эффективный подход к этой технологии.

В двух статьях, опубликованных на arXiv, команда специалистов Google Brain и DeepMind описала методы повышения эффективности технологии обучения с подкреплением, рассказывает Venture Beat. В первой описан алгоритм ABPS — адаптивного совместного пользования поведенческими стратегиями — который позволяет выборочно делиться опытом, выбранным из пула ИИ-агентов. Авторы пишут, что ABPS достиг выдающейся эффективности в ряде аркадных игр, снизив статистический разброс на 25%.

Добиться таких результатов разработчики смогли благодаря настройке гиперпараметров — параметров, чья ценность устанавливается до того, как начинается процесс обучения.

Этот подход требует сбора данных через взаимодействие со средой. Здесь и вступает в дело алгоритм ABPS, который обеспечивает возможность делиться опытом, накопленным разными агентами, которые обучались с различными гиперпараметрами.

Во второй работе говорится про фреймворк UVFA — универсальный аппроксиматор функции ценности — который действует одновременно с ИИ-агентом и изучает стратегии исследования, повышая его производительность. Он выстраивает общую архитектуру, которая продолжает развиваться даже при отсутствии естественного вознаграждения, и побуждает ИИ исследовать среду максимально полно. Это первый алгоритм, который добился высоких показателей в игре Pitfall без запрограммированных параметров и наблюдения за человеком.

В конце прошлого года нейросеть MuZero, созданная в DeepMind, научилась играть в 57 классических игр Atari, а также в шахматы, го и сеги, не зная правил — просто наблюдая за ходом партий. Модель предсказывала законы, ценность и мгновенную награду каждого хода.