Hitech logo

Обучение машин

ИИ DeepMind сам разобрался в правилах шахмат, го и других игр

TODO:
Георгий Голованов21 ноября 2019 г., 13:00

В отличие от своей предшественницы AlphaZero, новая нейросеть MuZero научилась играть в 57 классических игр Atari, а также в шахматы, го и сеги, не зная правил — просто наблюдая за ходом партий. Такой подход намного ближе к решению реальных задач в жизни.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

В конце прошлого года DeepMind опубликовала статью, в которой рассказала об особенностях обучения AlphaZero — нейросети, которая победила людей в играх в шахматы, го и сеги. Алгоритм продемонстрировал способность обучаться играм на двоих с полной информацией, то есть таким, в которых правила, функция полезности и ходы других игроков не являются тайной.

ИИ AlphaZero обладал одним важным преимуществом — он заранее знал правила игр, которым учился. Желая проверить, справится ли машина без этого бонуса, команда DeepMind разработала MuZero, который сам учит себя правилам игр. Нейросеть добилась высоких показателей в 57 играх Atari и сравнилась по уровню мастерства с AlphaZero в го, шахматах и сеги, пишет Venture Beat.

Фактически, MuZero получает изображения доски с фигурами и трансформирует его в скрытое состояние, которое многократно обновляется.

Во время каждого хода модель предсказывает законы (как можно ходить), ценность (вероятного победителя) и мгновенную награду (количество полученных очков).

В процессе обучения разработчики провели 800 симуляций на каждый ход для игр в го, шахматы и сеги, и 50 симуляций для каждой из 57 классических игр Atari из открытой библиотеки Atari Learning Environment. MuZero немного превзошла AlphaZero в го, хотя и использовала меньше вычислений. Исследователи считают это результатом более глубокого понимания игры. Что касается Atari, то MuZero добилась нового рекорда среди моделей. 

«Алгоритмы планирования […] достигли выдающихся успехов в искусственном интеллекте. Однако они все зависят от знания динамики среды, то есть правил игры или от точного симулятора, — говорится в статье, опубликованной разработчиками. — Обучение на основе моделей решает эту проблему, сначала обучая модель динамике среды, а затем планированию в соответствии с изученной моделью».

Побеждают машины и в играх на несколько участников. Этим летом алгоритм, созданный командой Facebook, дал бой двенадцати профессионалам покера, впервые обыграв людей за столом с шестью игроками, а не один на один.