Hitech logo

Кейсы

Новый инструмент DeepMind помогает БЯМ исправлять свои ошибки

TODO:
Дарина ЖитоваВчера, 12:44 PM

Исследователи из Google DeepMind разработали новый метод для улучшения способности больших языковых моделей (БЯМ) исправлять собственные ошибки. Технология получила название Self-Correction via Reinforcement Learning (SCoRe). Она позволяет моделям использовать собственные данные для самоисправления и делает их более надежными и устойчивыми при выполнении сложных задач.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Основная цель самоисправления заключается в том, чтобы модель могла пересматривать и улучшать свои ответы до тех пор, пока не достигнет правильного результата. «Самоисправление значительно улучшает способность человека думать», — отметил исследователь Google DeepMind Авирал Кумар. Он добавил, что люди часто тратят время на попытки и исправления ошибок, чтобы прийти к верному решению. По его словам, исследователи стремятся обучить БЯМ поступать так же.

Ранее для самоисправления моделей использовали методы, такие как настройка с помощью аннотированных данных или сложные подходы к формированию подсказок. Однако такие способы часто требуют внешней обратной связи или доступа к «оракулу», который может направлять процесс исправления. Это делает их сложными в применении на практике. Кроме того, такие подходы не используют возможности самой модели для самоисправления, а полагаются на внешнюю помощь.

Чтобы обойти ограничения традиционных методов, команда DeepMind обратилась к методам обучения с подкреплением (RL). SCoRe обучает модель генерировать ответы и исправлять собственные ошибки без внешней помощи. Это происходит на основе данных, созданных самой моделью, что устраняет необходимость в дополнительной информации. SCoRe использует двухэтапный процесс обучения с регуляризацией, чтобы избежать проблем, когда модель может проигнорировать этап исправления и просто выдать наилучший ответ с первого раза.

Первый этап обучения направлен на улучшение способности модели исправлять ошибки, при этом начальные попытки остаются близкими к результатам базовой модели. Второй этап включает обучение с использованием многоэтапного RL для оптимизации результатов как на начальной, так и на последующих стадиях. Важной частью процесса является поощрение модели за улучшение ответа между первой и второй попыткой. Это помогает модели не останавливаться на начальном ответе, а стараться улучшить его.

Исследователи протестировали SCoRe на задачах по математике и программированию, используя бенчмарки MATH, MBPP и HumanEval. Результаты показали, что SCoRe значительно улучшил способности моделей Gemini 1.0 Pro и 1.5 Flash к самоисправлению. Например, на бенчмарке MATH модель достигла прогресса на 15,6% по сравнению с базовой моделью, а на HumanEval — на 9,1%. Также заметно сократилось количество случаев, когда модель ошибочно изменяла правильный ответ на неверный.

Еще одной важной особенностью SCoRe стала его высокая эффективность при использовании масштабирования на этапе вывода. За счет разделения ресурсов вывода на несколько раундов исправления модель смогла достичь лучших результатов. Исследователи считают, что этот метод может быть полезен не только для задач программирования и математики, но и для других сфер. Например, его можно использовать для анализа и исправления потенциально опасных ответов модели, прежде чем они будут представлены пользователю.