Hitech logo

Кейсы

ИИ DeepMind научился побеждать в играх, правил которых не изучал

TODO:
Георгий Голованов24 декабря 2020 г., 11:02

Разработчики DeepMind сделали еще один шаг навстречу мечте о создании машины, которая учится сама, как ребенок. Статья в журнале Nature, в которой специалисты DeepMind рассказали о своем достижении, появилась в препринте на сайте ArXiv еще в ноябре, но только сейчас стало окончательно ясно, что компания уже ищет варианты практического применения своих алгоритмов.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Известность пришла к DeepMind в 2016, когда система обучения с подкреплением AlphaGo, после изучения миллионов партий мастеров, победила лучших игроков в го. В 2018 компания выпустила AlphaZero, которая сама научилась играть в шахматы, го и сеги, уже без сторонней помощи. Теперь им на смену пришла MuZero, которой даже не нужно знать правила игры.

Новая система сначала пробует сделать один ход, потом другой, изучает границы дозволенного, отмечая, какое предлагают вознаграждение — в шахматах поставить шах и мат, в «Pac-Man» — съесть желтую точку. Затем она бросает все свои силы на то, чтобы добиться желаемого, то есть совершенствуется. Такое обучение в процессе наблюдения за собственными действиями идеально подходит для ИИ, которым предстоит решать проблемы, не имеющие четкого определения. В нашем хаотичном мире таких задач предостаточно, пишет Spectrum.

В частности, разработчики уже изучают возможность применения MuZero для сжатия видео, обсуждают с Waymo, еще одним подразделением Alphabet, использование ИИ в системах автономного управления и размышляют над дизайном белков — следующим шагом после свертывания белков, которого недавно добился AlphaFold, «родственник» MuZero.

Одновременно изучая правила и совершенствуясь, MuZero превосходит конкурентов DeepMind в экономичности использования данных. В игре «Ms. Pac-Man», когда ИИ был ограничен шестью или семью симуляциями за ход — а этого слишком мало, чтобы охватить все возможные действия — он все равно достиг хороших результатов.

Даже на этапе обучения системе требуется не так много ресурсов — для игры Atari две или три недели на одном графическом процессоре — а после она может работать даже на смартфоне. Хитрость в том, что MuZero моделирует только те аспекты окружения, которые важны для процесса принятия решения.

«В конце концов, знать, что зонт защищает от дождя полезнее, чем уметь смоделировать паттерны капель в воздухе», — пишут разработчики.

Год назад алгоритм DeepMind AlphaStar стал гроссмейстером стратегической видеоигры Starcraft 2, обыграв 99,8% игроков-людей. Причем он получил это звание в рейтингах сразу за три расы, хотя игроки-люди обычно специализируются на одной.