Для разработчиков из DeepMind это необычная задача, решение которой потребовало нового подхода к созданию алгоритмов и объединения нескольких областей знаний — обучения с подкреплением, теории игр и коммуникации. Главная задача — организовать общение между агентами ИИ в условиях выполнения совместных задач.
Для подтверждения своих гипотез команда DeepMind протестировала все современные алгоритмы обучения с подкреплением и обнаружила, что они плохо справляются с игрой в Ханаби.
В DeepMind разработали среду с открытым кодом, которая должна подстегнуть исследования, пишет MIT Technology Review.
Игрок в Ханаби должен за конечное число раундов угадать значение своих карт, видя только карты других участников. Здесь сочетаются стратегия, логическое мышление и умение сотрудничать. В отличие от других игр, Ханаби требует понимания ментального состояния оппонентов — и того, что оно может отличаться от ощущений, которые испытываешь ты сам. Это фундаментальный навык, который люди обычно развивают в юности.
Поскольку это игра с неполной информацией, ИИ-агент вынужден добывать сведены всевозможными путями — и из игровых подсказок, и наблюдая за соперниками. Вдобавок, он должен как можно лучше помогать товарищам по команде, при этом не нарушая правил.
В DeepMind верят — если ИИ сможет преуспеть в Ханаби, технология станет на шаг ближе к эффективному взаимодействию с людьми.
Впрочем, для создания человекоподобного ИИ специалисты DeepMind рекомендуют отказаться от нейросетей и обратиться к графовой сети. Такая структура «мышления» сделает умозаключения осознанными.