В двух статьях, опубликованных на arXiv, команда специалистов Google Brain и DeepMind описала методы повышения эффективности технологии обучения с подкреплением, рассказывает Venture Beat. В первой описан алгоритм ABPS — адаптивного совместного пользования поведенческими стратегиями — который позволяет выборочно делиться опытом, выбранным из пула ИИ-агентов. Авторы пишут, что ABPS достиг выдающейся эффективности в ряде аркадных игр, снизив статистический разброс на 25%.
Добиться таких результатов разработчики смогли благодаря настройке гиперпараметров — параметров, чья ценность устанавливается до того, как начинается процесс обучения.
Этот подход требует сбора данных через взаимодействие со средой. Здесь и вступает в дело алгоритм ABPS, который обеспечивает возможность делиться опытом, накопленным разными агентами, которые обучались с различными гиперпараметрами.
Во второй работе говорится про фреймворк UVFA — универсальный аппроксиматор функции ценности — который действует одновременно с ИИ-агентом и изучает стратегии исследования, повышая его производительность. Он выстраивает общую архитектуру, которая продолжает развиваться даже при отсутствии естественного вознаграждения, и побуждает ИИ исследовать среду максимально полно. Это первый алгоритм, который добился высоких показателей в игре Pitfall без запрограммированных параметров и наблюдения за человеком.
В конце прошлого года нейросеть MuZero, созданная в DeepMind, научилась играть в 57 классических игр Atari, а также в шахматы, го и сеги, не зная правил — просто наблюдая за ходом партий. Модель предсказывала законы, ценность и мгновенную награду каждого хода.