Ученые представили стратегию «Обучение на ошибках» (Learning from Mistakes, LeMa), которая учит ИИ исправлять собственные ошибки, что улучшает его способность к рассуждению. Исследователи черпали вдохновение в процессах человеческого обучения, когда ученик учится на своих промахах, чтобы улучшить результаты в будущем. Они применили эту концепцию к большим языковым моделям (LLM), используя пары данных с исправлением ошибок, сгенерированные GPT-4, для их точной настройки.
Сначала исследователи использовали такие модели, как LLaMA-2, которые генерировали ошибочные пути решения математических словесных задач. Затем GPT-4 выявил ошибки в рассуждениях, объяснил их и предоставил исправленные рассуждения. Исследователи использовали скорректированные данные для дальнейшего обучения исходных моделей.
В ходе эксперимента с использованием пяти базовых моделей LLM и двух задач на математическое мышление было обнаружено, что LeMa постоянно улучшает производительность в сравнении с простой донастройкой на данных Conceptual Task Graphs.
Специализированные модели LLM, которые были разработаны для решения математических задач, достигли высокой точности в решении задач. WizardMath и MetaMath показала точность в 85,4%на задачах GSM8K, а на задачах MATH — 27,1%. Эти результаты превосходят современные достижения open-source моделей. GSM8K и MATH — наборы задач, на которых тестируются ИИ-модели.
Исследования команды, включая код, данные и модели, теперь общедоступны на GitHub.
Появление LeMa показывает, что процессы машинного обучения можно сделать более похожими на человеческое обучение. Эта разработка может произвести революцию в секторах, зависящих от искусственного интеллекта, где исправление ошибок и непрерывное обучение имеют решающее значение. Например, в здравоохранении, финансах и автономных транспортных средствах.