Главной разработкой, которую отметило жюри премии, стало обучение с учетом временной разницы (temporal difference learning, TD-learning). Этот алгоритм позволяет программам корректировать своё поведение не после завершения серии действий, а сразу после каждого отдельного шага. Раньше алгоритмы обучения требовали ждать результата до конца задачи, что сильно замедляло процесс обучения. Барто и Саттон предложили более быстрый способ: сразу учитывать промежуточные результаты, чтобы быстрее настраивать стратегию.
Этот подход оказался особенно эффективным в изменчивой среде, где нужно принимать быстрые решения. Благодаря TD-learning ИИ научился действовать гибко в нестабильных и непредсказуемых условиях. Сегодня эту методику активно применяют в робототехнике, беспилотном транспорте и играх.
Барто и Саттон не ограничились созданием отдельного алгоритма. Они заложили теоретический фундамент для дальнейших исследований обучения с подкреплением. В 1998 году учёные опубликовали знаковый учебник «Обучение с подкреплением: введение» («Reinforcement Learning: An Introduction»). Эта книга стала настольной для тысяч специалистов, работающих с ИИ.
Их разработки стали основой для ряда прорывных проектов последних лет. Например, именно обучение с подкреплением лежит в основе нейросети AlphaGo от компании Google DeepMind. В 2016 году этот ИИ впервые победил профессиональных игроков в древнюю игру го. Совсем недавно китайская компания DeepSeek также использовала принципы обучения с подкреплением при создании своей модели R1.
Премия Тьюринга присуждается Ассоциацией вычислительной техники (ACM). Ее часто называют Нобелевской премией по информатике. Сама Нобелевская премия в последнее время тоже выходит за традиционные рамки и активно включает исследования искусственного интеллекта. В прошлом году лауреатами Нобелевской премии по физике стали Джеффри Хинтон и Джон Хопфилд за фундаментальные работы в области ИИ. Вскоре после этого Демис Хассабис и Джон Джампер из DeepMind получили Нобелевскую премию по химии за создание AlphaFold.
Президент ACM Яннис Иоаннидис заявил, что разработка Барто и Саттона основана на идеях из когнитивной науки, психологии и нейробиологии. Их работа не устарела и не стала проходным этапом. По его словам, обучение с подкреплением сегодня продолжает активно развиваться и способно привести к важным открытиям не только в информатике, но и в других областях науки.
Размер премии Тьюринга в 2024 году составляет $1 млн. Барто и Саттон разделят эту сумму пополам. Денежную часть награды спонсирует компания Google. Среди известных получателей премии Тьюринга прошлых лет — главный научный сотрудник Meta Янн ЛеКун. В 2018 году он получил награду вместе с Джеффри Хинтоном и Йошуа Бенжио за разработки в области глубоких нейронных сетей.