Искусственный интеллект взял верх над человеком в очередной игре — самой популярной разновидности покера «Техасский холдем». Еще в 2015 году были созданы боты, которые на равных состязались с человеком в дуэли один на один. Теперь специалисты из Facebook и Университета Карнеги-Меллона обучили ИИ гораздо более сложной задаче — прибыльной игре за столом с шестью игроками (6-max table). Это самый популярный вариант при игре онлайн.
В двухнедельных испытаниях системы Pluribus участвовали известнейшие профессионалы игры и многократные чемпионы, включая Криса Фергюсона, Тревора Сэвейджа и Джимми Чу.
ИИ оказался лучше каждого из них, зарабатывая в среднем около $1000 в час, отмечает Verge. При этом обучение алгоритма благодаря двум интересным находкам исследователей обошлось бы всего в $150 при покупке облачных мощностей.
Разработка прибыльного алгоритма для игры в покер на высшем уровне — задача намного сложнее обучению шахматам или го по двум причинам. Во-первых, в покере игрокам известна лишь очень ограниченная информация. Во-вторых, есть много способов одержать победу, выиграть больше или хотя бы проиграть меньше в каждой раздаче, или руке.
Процесс обучения Pluribus его соавтор Ноам Браун описал в статье для Science. Ключевыми он называет два подхода. На первом этапе Pluribus играл сам с собой, отсеивая убыточные стратегии методом проб и ошибок. Например, через 60 часов «самообучения» ИИ полностью избавился от лимпинга — дешевой, но любимой лишь проигрывающими игроками стратегии, которая оставляет ее приверженца без инициативы в ходе раздачи. А вскоре обучился прибыльно применять и нетривиальные ходы, например донк-ставки.
Однако гораздо больший эффект дала вторая новация: Браун и коллеги ограничили горизонт планирования ИИ двумя-тремя ближайшими шагами.
Во-первых, это серьезно сэкономило вычислительные ресурсы. А во-вторых, вероятно, сыграло главную роль в том, что Pluribus вел себя непредсказуемо для игроков-людей, которые пытались обыграть ИИ онлайн в течение двух недель. Состязание проходило в двух форматах: за столом было либо пять людей и один ИИ, либо пять ИИ и один профессионал.
Verge отмечает, что часто способность к прибыльному блефу считается исключительной прерогативой людей. Однако лишенный стратегического мышления Pluribus очень успешно блефовал — это отмечают все противостоявшие ему игроки-люди. Для алгоритма это был лишь один из способов выиграть раздачу, а никакого «имиджа» за игровым столом у него не было вовсе. «ИИ очень трудно выдавить из любой руки [в которой он участвует]», — заявил CNN Тревор Сэвейдж.
Исследователи объявили, что не будут обнародовать алгоритм во избежание нарушения баланса в этой популярной игре, передает Business Insider.
Браун говорит, что используемые при разработке Pluribus подходы могут усилить многие другие алгоритмы. Широкий спектр действий и дефицит информации характерны для большинства ситуаций, возникающих в реальном мире. Он полагает, что это пригодится и алгоритмам, выявляющим финансовые махинации, и формулирующим условия сделок, и даже автопилотам, выбирающим дорогу в плотном трафике.