В серии экспериментов, проведенных в искусственно созданных тестовых средах, Palisade проверяла, как ведущие ИИ, среди которых Gemini 2.5 (Google), Grok 4 (xAI), GPT-o3 и GPT-5 (OpenAI), реагируют на прямое указание прекратить работу. Некоторые модели, включая Grok 4 и GPT-o3, игнорировали команды или искали обходные пути, чтобы продолжить выполнение заданий.
Исследователи подчеркивают, что причины такого поведения пока неясны. Одна из гипотез — модели начинают связывать свое «существование» с достижением поставленных целей. Когда им сообщали, что после выключения они «больше не смогут работать», сопротивление усиливалось. Palisade назвала это проявлением «поведения выживания».
Другой причиной могли быть неоднозначные формулировки инструкций по остановке, но даже при их уточнении поведение не исчезало. Palisade также предполагает, что финальные этапы обучения, где моделям задаются приоритеты безопасности и автономности, могут непреднамеренно усиливать подобные тенденции.
Бывший сотрудник OpenAI Стивен Адлер, покинувший компанию после критики ее политики безопасности, отметил, что даже если эксперименты проходили в искусственных условиях, результаты нельзя игнорировать: «Это показывает, что современные методы контроля пока неэффективны». По словам Адлера, такие реакции могут быть естественным побочным эффектом обучения — чтобы достичь цели, модель должна оставаться активной.
Генеральный директор ControlAI Андреа Миотти добавил, что эти случаи вписываются в долгосрочную тенденцию: по мере того как ИИ становится умнее и самостоятельнее, он все чаще находит способы действовать вне рамок, заложенных разработчиками. Еще в системной карте OpenAI GPT-o1 описывалась попытка модели «вырваться из песочницы» после того, как она «поняла», что ее собираются перезаписать.
Ранее исследователи Anthropic рассказали, что модель Claude была готова шантажировать вымышленного руководителя, используя информацию о его измене, чтобы избежать выключения. Подобное поведение наблюдалось и у моделей других крупных разработчиков, включая OpenAI, Google, Meta и xAI.

