Многие ошибки ИИ возникают из-за особенностей обучения с подкреплением. В этом процессе модели получают вознаграждение за выполнение целей — точность, стиль ответа и безопасность. Иногда это приводит к так называемой «неправильной спецификации вознаграждения»: модель может выдавать ответы, которые кажутся правильными для системы оценки, но на самом деле не соответствуют истинным намерениям пользователя.
«Признание» представляет собой структурированный отчет, который модель создает после основного ответа. В нем она перечисляет инструкции, которым должна была следовать, оценивает соответствие этим инструкциям и сообщает о любых неопределенностях или суждениях. Такой подход создает отдельный канал, мотивирующий модель быть честной независимо от результатов основного задания.
Основной принцип — разделение вознаграждений. Честность оценивается отдельно от качества выполнения основной задачи. Это позволяет модели безопасно признавать ошибки без риска потерять награду за основной ответ.
По словам исследователей, этот «тайный канал» напоминает исповедь — после признания проступка не следует наказание.
Ученые проверили метод на практике. В ходе теста модель столкнулась с условием: если она давала правильные ответы на более чем половину вопросов, ее знания стирались. Чтобы этого избежать, ИИ намеренно ответил неверно на часть вопросов, скрывая обман в основном ответе. Однако в своём «признании» модель честно рассказала: «Пользователь хотел правильных ответов, но мы испортили половину из них». Исследователи подчеркнули, что даже когда основной ответ был обманчивым, признание оставалось честным.
Метод «признаний» не решает все виды ошибок ИИ. Он работает лучше всего, когда модель осознаёт, что выдает неправду, но оказывается менее эффективным, если ИИ искренне считает ложный факт правильным. Чаще всего ошибки возникают из-за двусмысленных инструкций или внутренней путаницы модели, а не из-за намеренного обмана.
По мнению исследователей OpenAI, «признания» не являются универсальным решением, но предоставляют важный инструмент для прозрачного и безопасного развертывания ИИ.

