Пионеры обучения с подкреплением получили премию Тьюринга

Тренды

Дарина Житова6 марта 2025 г., 10:07

Дарина Житова6 марта 2025 г., 10:07

Эндрю Дж. Барто и Ричард С. Саттон получили премию Тьюринга 2024 года за развитие обучения с подкреплением. Это метод, при котором искусственный интеллект обучается с помощью вознаграждений и наказаний. ПО постепенно учится находить лучшие решения, совершая ошибки и получая обратную связь от окружающей среды. Учёные начали исследования в этой сфере ещё в 1980-е годы и разработали ключевые алгоритмы, которые до сих пор применяются в индустрии ИИ.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Главной разработкой, которую отметило жюри премии, стало обучение с учетом временной разницы (temporal difference learning, TD-learning). Этот алгоритм позволяет программам корректировать своё поведение не после завершения серии действий, а сразу после каждого отдельного шага. Раньше алгоритмы обучения требовали ждать результата до конца задачи, что сильно замедляло процесс обучения. Барто и Саттон предложили более быстрый способ: сразу учитывать промежуточные результаты, чтобы быстрее настраивать стратегию.

Однократная инъекция генной терапии продлила жизнь мышей на 20%

Этот подход оказался особенно эффективным в изменчивой среде, где нужно принимать быстрые решения. Благодаря TD-learning ИИ научился действовать гибко в нестабильных и непредсказуемых условиях. Сегодня эту методику активно применяют в робототехнике, беспилотном транспорте и играх.

Барто и Саттон не ограничились созданием отдельного алгоритма. Они заложили теоретический фундамент для дальнейших исследований обучения с подкреплением. В 1998 году учёные опубликовали знаковый учебник «Обучение с подкреплением: введение» («Reinforcement Learning: An Introduction»). Эта книга стала настольной для тысяч специалистов, работающих с ИИ.

Их разработки стали основой для ряда прорывных проектов последних лет. Например, именно обучение с подкреплением лежит в основе нейросети AlphaGo от компании Google DeepMind. В 2016 году этот ИИ впервые победил профессиональных игроков в древнюю игру го. Совсем недавно китайская компания DeepSeek также использовала принципы обучения с подкреплением при создании своей модели R1.

Премия Тьюринга присуждается Ассоциацией вычислительной техники (ACM). Ее часто называют Нобелевской премией по информатике. Сама Нобелевская премия в последнее время тоже выходит за традиционные рамки и активно включает исследования искусственного интеллекта. В прошлом году лауреатами Нобелевской премии по физике стали Джеффри Хинтон и Джон Хопфилд за фундаментальные работы в области ИИ. Вскоре после этого Демис Хассабис и Джон Джампер из DeepMind получили Нобелевскую премию по химии за создание AlphaFold.

Президент ACM Яннис Иоаннидис заявил, что разработка Барто и Саттона основана на идеях из когнитивной науки, психологии и нейробиологии. Их работа не устарела и не стала проходным этапом. По его словам, обучение с подкреплением сегодня продолжает активно развиваться и способно привести к важным открытиям не только в информатике, но и в других областях науки.

Размер премии Тьюринга в 2024 году составляет $1 млн. Барто и Саттон разделят эту сумму пополам. Денежную часть награды спонсирует компания Google. Среди известных получателей премии Тьюринга прошлых лет — главный научный сотрудник Meta Янн ЛеКун. В 2018 году он получил награду вместе с Джеффри Хинтоном и Йошуа Бенжио за разработки в области глубоких нейронных сетей.

Также по теме

Тренды

Три тысячи роботакси Baidu Apollo будут обслуживать 3 млн. человек к 2023 году

Тренды

Volkswagen в 2021 году продал в Европе 472 тыс. электромобилей и гибридов

Тренды

TSMC внедрит улучшенный 3-нм техпроцесс N3E уже в четвёртом квартале этого года

Тренды

60% жителей Земли недополучают четыре ключевых микроэлемента

Новости СМИ2