Новый алгоритм Alphabet улучшает обучение с подкреплением

Идеи

Георгий Голованов19 февраля 2020 г., 11:06

Георгий Голованов19 февраля 2020 г., 11:06

Обучение с подкреплением — форма машинного обучения методом кнута и пряника — широко используется в робототехнике, синтезе естественной речи и распознавании изображений. К несчастью, она требует массу данных, а значит — времени и ресурсов. Это и заставило исследователей из Google Brain и DeepMind разработать более эффективный подход к этой технологии.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

В двух статьях, опубликованных на arXiv, команда специалистов Google Brain и DeepMind описала методы повышения эффективности технологии обучения с подкреплением, рассказывает Venture Beat. В первой описан алгоритм ABPS — адаптивного совместного пользования поведенческими стратегиями — который позволяет выборочно делиться опытом, выбранным из пула ИИ-агентов. Авторы пишут, что ABPS достиг выдающейся эффективности в ряде аркадных игр, снизив статистический разброс на 25%.

«Если ИИ — это мозг робота, то RPA — его руки». Что умеют программные роботы

Добиться таких результатов разработчики смогли благодаря настройке гиперпараметров — параметров, чья ценность устанавливается до того, как начинается процесс обучения.

Этот подход требует сбора данных через взаимодействие со средой. Здесь и вступает в дело алгоритм ABPS, который обеспечивает возможность делиться опытом, накопленным разными агентами, которые обучались с различными гиперпараметрами.

Во второй работе говорится про фреймворк UVFA — универсальный аппроксиматор функции ценности — который действует одновременно с ИИ-агентом и изучает стратегии исследования, повышая его производительность. Он выстраивает общую архитектуру, которая продолжает развиваться даже при отсутствии естественного вознаграждения, и побуждает ИИ исследовать среду максимально полно. Это первый алгоритм, который добился высоких показателей в игре Pitfall без запрограммированных параметров и наблюдения за человеком.

В конце прошлого года нейросеть MuZero, созданная в DeepMind, научилась играть в 57 классических игр Atari, а также в шахматы, го и сеги, не зная правил — просто наблюдая за ходом партий. Модель предсказывала законы, ценность и мгновенную награду каждого хода.

Также по теме

Идеи

Новый полимер гнется как резина, проводит электричество и не токсичен

Идеи

Rocket Lab предложила NASA быстрый способ возвращения образцов с Марса за $2 млрд

Идеи

Новая модель варп-двигателя для путешествий быстрее скорости света не нарушает законов физики

Идеи

"Клавиатура на пальцах" Tap получила функции мыши

Новости СМИ2