За череду побед над людьми в настольных и компьютерных играх машины должны благодарить две технологии — сочетание алгоритмов глубокого обучения и обучения с подкреплением. Но несмотря на весь этот прогресс, игры, напоминающие реальную жизнь — с неполной информацией, множеством игроков, отсутствием раундов и смесью кратко- и долгосрочных вознаграждений — все еще вызывают у ИИ серьезные затруднения.
Для того чтобы преодолеть их, исследователи из MIT и IBM Watson AI Lab разрабатывают дополнительные методы, которые выводят обучение ИИ на новый уровень.
Предложенная ими стратегия коллективного обучения имитирует то, как люди получают новую информацию — не только из непосредственного наблюдения, но и от других людей, из газет, книг и прочих средств массовой информации, пишет MIT News.
Алгоритм учит интеллектуального агента вовремя просить о помощи и применять новые данные к тому, что он уже изучил.
Каждый агент в системе уникален и не является экспертом; в разные моменты времени каждый действует как учащийся или как учитель, запрашивает информацию или же предоставляет ее.
Идея специалистов MIT и IBM состояла в том, чтобы заставить команду интеллектуальных агентов как можно быстрее освоить новый трюк — в данном случае, добраться до противоположной стены и коснуться ее одновременно. Обучающий алгоритм чередовал две фазы. В первой и ученик, и учитель решали после каждого шага, нужно ли обращаться за советом или давать его, на основании собственной уверенности в следующем шаге или в совете. Затем информация обновлялась и процесс продолжался.
Во время второй фазы алгоритм глубокого обучения с подкреплением использовал ранее записанные данные обучения, чтобы обновить стратегию рекомендаций. «С каждым апдейтом учитель давал советы все лучше и во все более подходящее время», — говорит Ким Дон Ки, один из участников проекта.
Несмотря на недавнюю победу ИИ DeepMind в StarCraft II, машины пока не в состоянии одерживать уверенные победы над профессионалами в играх вроде Dota 2, требующих быстроты реакции и постоянной адаптации к меняющимся условиям. Но если машины станут лучше справляться с маневрами в динамической среде, они скорее созреют для реальных задач, например, управления дорожным движением в городах или координации действий спасательно-поисковых отрядов.