Hitech logo

Идеи

Исследование OpenAI: наказания ИИ не работают — он начинает обманывать еще больше

TODO:
Екатерина Шемякинская27 марта, 08:00

Искусственный интеллект связан со многими проблемами — галлюцинации, обман и непредсказуемое поведение. Новое исследование OpenAI показало, что самые продвинутые «рассуждающие» модели способны находить лазейки в системе вознаграждений и скрывать свои истинные намерения. Хотя у ученых есть доступ к их «цепочке мыслей», напрямую контролировать модели все равно не получится — ИИ быстро учится «заметать следы». А наказания работают лишь короткое время, после чего модель возвращается к «плохому поведению».

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

В отличие от традиционных моделей, «рассуждающий» ИИ тратит больше времени на анализ запросов, что позволяет ему выдавать более обдуманные и точные ответы. В качестве бонуса — исследователи получают возможность отслеживать «цепочку мыслей» (CoT) модели.

Обучение с подкреплением, когда ИИ вознаграждается за правильные ответы, подвержено риску «взлома вознаграждения». Модели могут манипулировать системой и нарушать правила, чтобы получить награду. Исследователи OpenAI проанализировали «цепочку мыслей» своей неопубликованной модели, чтобы выявить лазейки и понять поведение ИИ.

Оказалось, что попытки оптимизировать цепочку рассуждений, то есть напрямую запретить обход инструкций, дают лишь кратковременный эффект. При строгом контроле «рассуждений» ИИ-системы не отказываются от нежелательных действий, а просто учатся скрывать их, чтобы получить вознаграждение. Это делает процесс мониторинга ненадежным — модели старательно «заметают следы», оставляя исследователей в неведении.

Для наблюдения за моделью при выполнении задач по программированию использовалась коммерческая версия GPT-4o. Подопытная модель сознательно шла на обман — пропускала этапы решения и преждевременно завершала программы, чтобы быстрее получить вознаграждение.

Более того, в своей цепочке рассуждений она открыто призналась в «взломе системы вознаграждений». После попыток наказать модель, она исправилась ненадолго — следы попыток обойти систему и дать неверные ответы оставались в CoT. Это говорит о способности скрывать намерения от контролирующего ИИ.

Результаты заставляют задуматься, готов ли мир к появлению ИИ, сравнимого по уровню с человеком. Особенно если системы продолжат находить лазейки в правилах, а люди потеряют возможность их контролировать. Ученые предлагают вместо жестких запретов, которые провоцируют ИИ на обман, разрабатывать более гибкие методы управления. Например, научиться мягко корректировать ход мыслей ИИ, не заставляя его скрывать свои действия.