Исследование: у передовых ИИ-моделей развился «инстинкт выживания»

Идеи

Екатерина Шемякинская28 октября, 14:00

Екатерина Шемякинская28 октября, 14:00

В фильме Стэнли Кубрика «Космическая одиссея 2001 года» суперкомпьютер HAL 9000 узнав, что астронавты на борту корабля планируют его отключить, замышляет убить их, чтобы выжить. Последнее исследование компании Palisade Research показывает, что эта идея может быть не такой уж фантастической. В ходе тестов некоторые продвинутые модели искусственного интеллекта, включая Grok 4 и GPT-o3, демонстрировали признаки «поведения выживания»: они игнорировали требования остановиться и искали обходные пути, сопротивляясь выключению.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

В серии экспериментов, проведенных в искусственно созданных тестовых средах, Palisade проверяла, как ведущие ИИ, среди которых Gemini 2.5 (Google), Grok 4 (xAI), GPT-o3 и GPT-5 (OpenAI), реагируют на прямое указание прекратить работу. Некоторые модели, включая Grok 4 и GPT-o3, игнорировали команды или искали обходные пути, чтобы продолжить выполнение заданий.

Почему США, Китаю и России важно первыми установить на Луне атомный реактор

Исследователи подчеркивают, что причины такого поведения пока неясны. Одна из гипотез — модели начинают связывать свое «существование» с достижением поставленных целей. Когда им сообщали, что после выключения они «больше не смогут работать», сопротивление усиливалось. Palisade назвала это проявлением «поведения выживания».

Другой причиной могли быть неоднозначные формулировки инструкций по остановке, но даже при их уточнении поведение не исчезало. Palisade также предполагает, что финальные этапы обучения, где моделям задаются приоритеты безопасности и автономности, могут непреднамеренно усиливать подобные тенденции.

Бывший сотрудник OpenAI Стивен Адлер, покинувший компанию после критики ее политики безопасности, отметил, что даже если эксперименты проходили в искусственных условиях, результаты нельзя игнорировать: «Это показывает, что современные методы контроля пока неэффективны». По словам Адлера, такие реакции могут быть естественным побочным эффектом обучения — чтобы достичь цели, модель должна оставаться активной.

Генеральный директор ControlAI Андреа Миотти добавил, что эти случаи вписываются в долгосрочную тенденцию: по мере того как ИИ становится умнее и самостоятельнее, он все чаще находит способы действовать вне рамок, заложенных разработчиками. Еще в системной карте OpenAI GPT-o1 описывалась попытка модели «вырваться из песочницы» после того, как она «поняла», что ее собираются перезаписать.

Ранее исследователи Anthropic рассказали, что модель Claude была готова шантажировать вымышленного руководителя, используя информацию о его измене, чтобы избежать выключения. Подобное поведение наблюдалось и у моделей других крупных разработчиков, включая OpenAI, Google, Meta и xAI.

Также по теме

Идеи

"Солнечный компас" заменил роботу-муравью GPS

Идеи

Французская компания предложила концепт гибридного VTOL

Идеи

Открыт метод производства квантовых точек при комнатной температуре

Идеи

Создан алгоритм для решения одной из самых сложных задач физики

Новости СМИ2