ИИ-боты DeepMind придумали командную тактику и обыграли людей в Quake III
Logo
Cover

ИИ освоили игру в трехмерном пространстве без указаний от человека и без всякой «телепатии». Агенты учились играть друг с другом, а потом разбили команду ученых. С профессиональными игроками, впрочем, возникла неожиданная проблема.

В лаборатории Google DeepMind совершили очередной шаг к появлению человекоподобного ИИ: независимые один от другого ИИ-агенты самостоятельно выработали командную тактику в трехмерном пространстве. И разбили людей в Quake III в режиме Capture the Flag.

Работы DeepMind последовательно становятся все сложнее и сложнее. AlphaZero стал гроссмейстером трех игр на двумерной доске и с полной информацией, AlphaStar освоил лучше людей StarCraft — стратегию с неполной информацией, но в которой игрок управляет всем происходящим на поле.

Теперь взят очередной рубеж — командная работа и взаимодействие. Причем без вмешательства в обучение человека.

В CtF задача команды — выкрасть флаг с базы соперника на одном конце карты и доставить его на другой — к себе на базу. Если бегущего с флагом «застрелят», он теряет ценную ношу.

В блоге DeepMind исследователи пишут, что не давали ИИ-агентам никаких правил и даже не объясняли условия победы. Счетчик флагов — этого уже достаточно для обучения с подкреплением.

При этом каждый алгоритм видел только то, что видит и игрок-человек на экране компьютера, и не имел доступа к информации от других участников команды. Каждый ИИ независимо для себя вырабатывал политику поведения. Для оптимизации применялся подход мета-обучения: после каждой тысячи итераций слабейшие варианты отсеивались, сообщает IEEE Spectrum.

В честном бою с полностью случайной генерацией команда ИИ-ботов оказалась сильнее команды людей. Даже после 12 часов практики люди выигрывали 25% игр и еще в 6% сводили дело к ничьей.

Задавшись целью выяснить, насколько на самом деле крут ИИ, разработчики выставили его против двух профессиональных тестировщиков компьютерных игр, причем выбрали очень сложную карту, на которой боты не тренировались. Людям потребовалось шесть часов, чтобы выработать выигрышную тактику. Они внимательно следили, какие пути для транспортировки флага выбирает ИИ и за какими следит и со временем научились избегать их.

DeepMind работает и над другими экспериментами, пытаясь научить ИИ взаимодействию и даже подобию чтения эмоций. Это необходимо для победы в Ханаби — хитрую карточную игру, где игрок не видит, что у него на руках, но осведомлен о картах соперников.