По определенным параметрам «Стратего» игра более сложная для освоения искусственным интеллектом, чем го или покер. Два игрока размещают на поле по 40 фишек, имеющих разный ранг и свойства, при этом противник может догадаться о том, какая именно фишка ему противостоит, только по косвенным признакам. Задача — захват вражеского флага. Дерево игры «Стратего» — граф всех возможных путей развития — равен 10 состояниям в 535 степени. У го, например, 10 в 360 степени. Что касается неполноты информации, то и тут «Стратего» сложнее: у игры 10 в 66 степени возможных положений фишек, тогда как в техасском холдеме для двух человек — только 10 в шестой.
DeepNash, названный в честь математика Джона Нэша, автора «равновесия Нэша» из теории игр, объединил алгоритм обучения с подкреплением с глубокой нейросетью, пишет Nature. Первый компонент ищет наилучшую стратегию для каждого состояния игры. Чтобы научиться этому, алгоритм сыграл 5,5 млрд партий. Результаты партий приводили к корректировкам внутри нейросети.
Авторы подчеркивают, что в отличие от AlphaGo и прочих, более ранних систем, созданных DeepMind для игр, DeepNash не осуществляет поиск через дерево игры, чтобы оптимизировать себя.
В апреле в течение двух недель DeepNash провел серию матчей против людей на онлайн-платформе Gravon. После 50 партий ИИ поднялся на третье место среди всех игроков с 2002 года.
«Наша работа показывает, что такие сложные игры, как „Стратего“, включающие неполную информацию, не требуют для решения методов поиска, — сказал Карл Тьюилс, один из специалистов DeepMind. — Это действительно большой шаг вперед в ИИ».
В начале осени команда DeepMind научила виртуальных гуманоидов работать сообща, играя в футбол. При этом правил игры машине никто не объяснял, она до всего доходила сама, через наблюдение и повторение. Постепенно под руководством алгоритмов неуклюжие человечки с реалистичными пропорциями и массой превратились в профессионалов своего дела. На то, чтобы приобрести базовые навыки игры в футбол у ИИ ушло 24 часа реального времени.