Hitech logo

Кейсы

Алгоритм AlphaZero стал гроссмейстером трех игр

TODO:
Роман Окашин7 декабря 2018 г., 10:48

AlphaZero — новый алгоритм от DeepMind — продолжает дело своего предшественника AlphaGo. Только играет он на высшем уровне сразу в несколько игр, и научился этому не подглядывая в партии гроссмейстеров-людей.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

В 2015 году Google DeepMind разработала алгоритм AlphaGo для игры в го. Используя силу машинного обучения, уже в 2016 году AlphaGo расправился с сильнейшим игроком в го среди людей — Ли Седолем. Это был первый случай победы алгоритма над профессионалом такого уровня. Сразу после игры Корейская ассоциация го присвоила AlphaGo высший уровень мастерства.

Этот матч по важности сравнивают с шахматным матчем между программой Deep Blue и Гарри Каспаровым. С тем лишь нюансом, что освоить го машине намного сложнее.

Но несмотря на всю сложность и отточенность, этот алгоритм был узкоспециализированным. Поэтому сразу после этого специалисты DeepMind принялись за разработку более универсального игрового ИИ — AlphaZero. Он обучается сразу трем настольным играм: помимо го, это традиционные шахматы, а также японские шахматы — сеги.

Zero получился более сбалансированным и совершенным. Всего за три дня и без какого-либо вмешательства человека он стал гроссмейстером во всех трех дисциплинах, пишет Ars Technica.

Сооснователь DeepMInd Демис Хассабис объясняет: «Начиная с совершенно случайных действий в игре, AlphaZero постепенно доходит до представления о том, как выглядит хороший матч. Он формирует собственные оценки об игре. В этом смысле он свободен от тех ограничений, которые присущи людям, когда они думают о построении стратегий».

В этом важнейшее отличие от предыдущей версии. Для победы над Ли Седолем алгоритму были необходимы примеры успешных партий мастеров го. Zero достаточно только правил игры. Алгоритм стал полностью независимым от человека.

После трехдневного обучения Zero победил в го подряд в 100 партиях.

Секретным ингредиентом стало обучение с подкреплением. Этот подход позволил существенно уменьшить необходимые для алгоритма ресурсы. Чтобы дойти до уровня AlphaGo алгоритму Zero пришлось отыграть 4,9 млн партий. Сам AlphaGo шел к своему уровню мастерства через 30 млн партий.

Шахматный гроссмейстер Гарри Каспаров с восхищением пишет об алгоритме: «Вместо того, чтобы обрабатывать человеческие инструкции и знания с огромной скоростью, как все предыдущие шахматные машины, AlphaZero генерирует свои собственные знания. Это происходит всего за несколько часов, и результаты превосходят любого человека или машину».

В DeepMind все же отмечают, что их алгоритм имеет дело хоть и с огромным, но ограниченным количеством исходов игр. Это можно воспринимать как сильно упрощенную модель реального мира, но не сам мир. Поэтому в более широком применении даже AlphaGo пока будет слаб.

Игры же остаются важным полигоном для отработки алгоритмов. Недавно нейросеть, разработанная специалистами компаний OpenAI и DeepMind, превзошла людей в серии классических игр на приставке Atari 2600.