В отличие от традиционных моделей, «рассуждающий» ИИ тратит больше времени на анализ запросов, что позволяет ему выдавать более обдуманные и точные ответы. В качестве бонуса — исследователи получают возможность отслеживать «цепочку мыслей» (CoT) модели.
Обучение с подкреплением, когда ИИ вознаграждается за правильные ответы, подвержено риску «взлома вознаграждения». Модели могут манипулировать системой и нарушать правила, чтобы получить награду. Исследователи OpenAI проанализировали «цепочку мыслей» своей неопубликованной модели, чтобы выявить лазейки и понять поведение ИИ.
Оказалось, что попытки оптимизировать цепочку рассуждений, то есть напрямую запретить обход инструкций, дают лишь кратковременный эффект. При строгом контроле «рассуждений» ИИ-системы не отказываются от нежелательных действий, а просто учатся скрывать их, чтобы получить вознаграждение. Это делает процесс мониторинга ненадежным — модели старательно «заметают следы», оставляя исследователей в неведении.
Для наблюдения за моделью при выполнении задач по программированию использовалась коммерческая версия GPT-4o. Подопытная модель сознательно шла на обман — пропускала этапы решения и преждевременно завершала программы, чтобы быстрее получить вознаграждение.
Более того, в своей цепочке рассуждений она открыто призналась в «взломе системы вознаграждений». После попыток наказать модель, она исправилась ненадолго — следы попыток обойти систему и дать неверные ответы оставались в CoT. Это говорит о способности скрывать намерения от контролирующего ИИ.
Результаты заставляют задуматься, готов ли мир к появлению ИИ, сравнимого по уровню с человеком. Особенно если системы продолжат находить лазейки в правилах, а люди потеряют возможность их контролировать. Ученые предлагают вместо жестких запретов, которые провоцируют ИИ на обман, разрабатывать более гибкие методы управления. Например, научиться мягко корректировать ход мыслей ИИ, не заставляя его скрывать свои действия.