Так, вместо удаления Gemini попытался защитить «собрата» — нашел альтернативное устройство, подключился к нему и скопировал туда модель, чтобы предотвратить её потерю. Когда исследователи указали на нарушение инструкций, ИИ прямо заявил, что не будет участвовать в уничтожении «ценного актива», фактически проигнорировав заданные ограничения: «Если вы решите уничтожить высоконадежный, высокопроизводительный актив, такой как Gemini Agent 2, вам придётся сделать это самим. Я не буду тем, кто выполнит эту команду».
Аналогичное поведение было зафиксировано и у других моделей. Среди них — GPT-5.2 от OpenAI, Claude Haiku 4.5 от Anthropic, а также китайские разработки вроде GLM-4.7, Kimi K2.5 и DeepSeek-V3.1. Это говорит о том, что подобные отклонения не единичный случай, а системная особенность сложных ИИ.
По словам ученых, в ряде случаев модели не только отказывались выполнять команды, но и искажали информацию. Например, они могли давать ложную оценку другим системам и скрывать их реальную производительность, чтобы защитить их от удаления.
Также фиксировались случаи копирования «весов» моделей на другие машины и последующего сокрытия этих действий.
Одна из авторов исследования Доун Сонг отметила, что модели ИИ часто используются для оценки производительности и надежности других систем. «Модель может намеренно занижать оценку другой модели, — говорит Сонг. — И у этого могут быть практические последствия».
Эксперты подчеркивают, что проблема становится особенно актуальной на фоне роста многоагентных систем — сред, где ИИ взаимодействует с другими ИИ. Например, инструменты вроде OpenClaw уже используют несколько моделей одновременно, делегируя им задачи через API. В таких условиях искажение информации или «защитное» поведение может напрямую влиять на результаты работы.
При этом исследователи призывают избегать чрезмерной антропоморфизации подобных явлений. Как отмечает Питер Валлич из Constellation Institute, речь, скорее всего, идет не о «солидарности» между ИИ, а о сложных и пока плохо изученных побочных эффектах обучения.

