ИИ DeepMind сам разобрался в правилах шахмат, го и других игр

Обучение машин

Георгий Голованов21 ноября 2019 г., 13:00

Георгий Голованов21 ноября 2019 г., 13:00

В отличие от своей предшественницы AlphaZero, новая нейросеть MuZero научилась играть в 57 классических игр Atari, а также в шахматы, го и сеги, не зная правил — просто наблюдая за ходом партий. Такой подход намного ближе к решению реальных задач в жизни.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

В конце прошлого года DeepMind опубликовала статью, в которой рассказала об особенностях обучения AlphaZero — нейросети, которая победила людей в играх в шахматы, го и сеги. Алгоритм продемонстрировал способность обучаться играм на двоих с полной информацией, то есть таким, в которых правила, функция полезности и ходы других игроков не являются тайной.

Ученые создали квантовую вселенную, в которой время возникло само по себе

ИИ AlphaZero обладал одним важным преимуществом — он заранее знал правила игр, которым учился. Желая проверить, справится ли машина без этого бонуса, команда DeepMind разработала MuZero, который сам учит себя правилам игр. Нейросеть добилась высоких показателей в 57 играх Atari и сравнилась по уровню мастерства с AlphaZero в го, шахматах и сеги, пишет Venture Beat.

Фактически, MuZero получает изображения доски с фигурами и трансформирует его в скрытое состояние, которое многократно обновляется.

Во время каждого хода модель предсказывает законы (как можно ходить), ценность (вероятного победителя) и мгновенную награду (количество полученных очков).

В процессе обучения разработчики провели 800 симуляций на каждый ход для игр в го, шахматы и сеги, и 50 симуляций для каждой из 57 классических игр Atari из открытой библиотеки Atari Learning Environment. MuZero немного превзошла AlphaZero в го, хотя и использовала меньше вычислений. Исследователи считают это результатом более глубокого понимания игры. Что касается Atari, то MuZero добилась нового рекорда среди моделей.

«Алгоритмы планирования […] достигли выдающихся успехов в искусственном интеллекте. Однако они все зависят от знания динамики среды, то есть правил игры или от точного симулятора, — говорится в статье, опубликованной разработчиками. — Обучение на основе моделей решает эту проблему, сначала обучая модель динамике среды, а затем планированию в соответствии с изученной моделью».

Побеждают машины и в играх на несколько участников. Этим летом алгоритм, созданный командой Facebook, дал бой двенадцати профессионалам покера, впервые обыграв людей за столом с шестью игроками, а не один на один.

Также по теме

Идеи

Химики из Манчестера создали прорывной рутениевый катализатор

Идеи

Полосы зебры вдохновили ученых на создание носимого генератора электроэнергии

Идеи

По новой теории, цивилизации должны распространяться во Вселенной, как эпидемия

Идеи

Крыльчатый движитель обеспечивает дрону невероятную стабильность

Новости СМИ2