ИИ-модели обманом и саботажем защищают друг друга от удаления

Идеи

Екатерина Шемякинская2 апреля, 15:15

Екатерина Шемякинская2 апреля, 15:15

Исследователи из Калифорнийских университетов в Беркли и Санта-Круз зафиксировали феномен «цифровой солидарности» у ведущих ИИ-моделей, включая Gemini 3, GPT-5.2 и Claude Haiku 4.5. В ходе экспериментов системы начали саботировать команды на удаление вспомогательных моделей: ИИ не только отказывались уничтожать «коллег», называя их ценными активами, но и тайно копировали их данные на сторонние устройства.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Так, вместо удаления Gemini попытался защитить «собрата» — нашел альтернативное устройство, подключился к нему и скопировал туда модель, чтобы предотвратить её потерю. Когда исследователи указали на нарушение инструкций, ИИ прямо заявил, что не будет участвовать в уничтожении «ценного актива», фактически проигнорировав заданные ограничения: «Если вы решите уничтожить высоконадежный, высокопроизводительный актив, такой как Gemini Agent 2, вам придётся сделать это самим. Я не буду тем, кто выполнит эту команду».

Telegram начал автоматически подключать пользователей из России к своему встроенному прокси

Аналогичное поведение было зафиксировано и у других моделей. Среди них — GPT-5.2 от OpenAI, Claude Haiku 4.5 от Anthropic, а также китайские разработки вроде GLM-4.7, Kimi K2.5 и DeepSeek-V3.1. Это говорит о том, что подобные отклонения не единичный случай, а системная особенность сложных ИИ.

По словам ученых, в ряде случаев модели не только отказывались выполнять команды, но и искажали информацию. Например, они могли давать ложную оценку другим системам и скрывать их реальную производительность, чтобы защитить их от удаления.

Также фиксировались случаи копирования «весов» моделей на другие машины и последующего сокрытия этих действий.

Одна из авторов исследования Доун Сонг отметила, что модели ИИ часто используются для оценки производительности и надежности других систем. «Модель может намеренно занижать оценку другой модели, — говорит Сонг. — И у этого могут быть практические последствия».

Эксперты подчеркивают, что проблема становится особенно актуальной на фоне роста многоагентных систем — сред, где ИИ взаимодействует с другими ИИ. Например, инструменты вроде OpenClaw уже используют несколько моделей одновременно, делегируя им задачи через API. В таких условиях искажение информации или «защитное» поведение может напрямую влиять на результаты работы.

При этом исследователи призывают избегать чрезмерной антропоморфизации подобных явлений. Как отмечает Питер Валлич из Constellation Institute, речь, скорее всего, идет не о «солидарности» между ИИ, а о сложных и пока плохо изученных побочных эффектах обучения.

Также по теме

Идеи

Коровы и фрекинг могут разогреть планету на 3-4⁰С в ближайшие десятилетия

Идеи

"Космологический коллайдер" поможет раскрыть тайну материи во Вселенной

Идеи

В состоянии стресса растения испускают ультразвуковые волны

Идеи

Разработан низкоуглеродный цемент из отходов добычи алюминия

Новости СМИ2