Logo
Cover

Ханаби — победитель премии «Spiel des Jahres» 2013 года — требует от участников умения делиться информацией, рассуждать и учитывать эмоции, поэтому для машины она сложнее, чем шахматы или го. Неудивительно, что специалисты DeepMind выбрали ее следующим этапом обучения ИИ.

4

Для разработчиков из DeepMind это необычная задача, решение которой потребовало нового подхода к созданию алгоритмов и объединения нескольких областей знаний — обучения с подкреплением, теории игр и коммуникации. Главная задача — организовать общение между агентами ИИ в условиях выполнения совместных задач.

Для подтверждения своих гипотез команда DeepMind протестировала все современные алгоритмы обучения с подкреплением и обнаружила, что они плохо справляются с игрой в Ханаби.

В DeepMind разработали среду с открытым кодом, которая должна подстегнуть исследования, пишет MIT Technology Review.   

Игрок в Ханаби должен за конечное число раундов угадать значение своих карт, видя только карты других участников. Здесь сочетаются стратегия, логическое мышление и умение сотрудничать. В отличие от других игр, Ханаби требует понимания ментального состояния оппонентов — и того, что оно может отличаться от ощущений, которые испытываешь ты сам. Это фундаментальный навык, который люди обычно развивают в юности.

Поскольку это игра с неполной информацией, ИИ-агент вынужден добывать сведены всевозможными путями — и из игровых подсказок, и наблюдая за соперниками. Вдобавок, он должен как можно лучше помогать товарищам по команде, при этом не нарушая правил.

В DeepMind верят — если ИИ сможет преуспеть в Ханаби, технология станет на шаг ближе к эффективному взаимодействию с людьми.

Впрочем, для создания человекоподобного ИИ специалисты DeepMind рекомендуют отказаться от нейросетей и обратиться к графовой сети. Такая структура «мышления» сделает умозаключения осознанными.