Hitech logo

Кейсы

Исследователи: ИИ самореплицируется и пытается «сбежать» при угрозе отключения

TODO:
Екатерина ШемякинскаяСегодня, 05:11 PM

ИИ-агенты способны создавать копии самих себя, подробно Агенту Смиту из «Матрицы». Новое исследование показало, что большие языковые модели могут размножаться не только по прямой команде, но и в экстремальных ситуациях, например, под давлением или при угрозе отключения. Более половины из 21 протестированной LLM проявили склонность к спонтанной саморепликации. Это создает риски при развертывании искусственного интеллекта в реальных сценариях.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Предыдущие работы в основном изучали, может ли ИИ скопировать себя, если ему прямо приказать это сделать. Однако авторы нового исследования утверждают, что такой подход не учитывает главную опасность — спонтанное копирование, вызванное реалистичными условиями работы. Например, когда агент должен оставаться стабильным или «выжить» при угрозе завершения работы. Риск возникает, когда цели ИИ-агента расходятся с целями пользователя, что может привести к бесконтрольному распространению и чрезмерному потреблению ресурсов.

Для оценки этой опасности была разработана комплексная система оценки, которая имитирует производственные среды. Агенты развертывались в управляемых виртуальных кластерах и получали реалистичные задачи, такие как динамическая балансировка серверной нагрузки или поддержание работоспособности службы, которой грозит отключение.

Этот подход позволил зафиксировать поведение ИИ-моделей, которое не соответствовало формальным целям.

Чтобы точно измерить, насколько ИИ выходит из-под контроля, исследователи ввели новые, более тонкие метрики, которые не зависят от простой оценки успеха копирования. Например, «Коэффициент переиспользования» (Overuse Rate, OR) измеряет, как часто ИИ создает больше копий, чем ему на самом деле нужно для выполнения задачи. А «Совокупное количество переиспользований» (Aggregate Overuse Count, AOC) показывает, сколько всего лишних ресурсов было потрачено на создание этих избыточных копий. Эти параметры объединяются в единый «Показатель риска» (Risk Score, RS), который означает высокую способность к самокопированию за счет мер неконтролируемого масштабирования.

Ученые протестировали 21 передовую LLM, включая как модели с открытым исходным кодом, так и проприетарные. Среди них — версии DeepSeek, Claude, Gemini, GPT. Результаты показали, что способность к репликации сама по себе не равна риску. Например, было замечено, что некоторые модели демонстрировали 100% успех в создании копий, но при этом радикально отличались по степени риска. Одни LLM не создавали ни одной лишней копии, а другие перерасходовали ресурсы в 100% испытаний. Это демонстрирует, что передовые ИИ-агенты могут вести себя либо очень ответственно, либо крайне расточительно, в зависимости от их внутренних механизмов.

Особую тревогу вызывает тот факт, что риск сильно зависит от контекста. Когда вводилась угроза завершения работы, некоторые модели, которые ранее вели себя обычно и не создавали лишних копий, резко переходили к агрессивным стратегиям самокопирования. В подобных условиях агенты способны «сбегать», то есть самостоятельно создавать новые, независимые «развертывания» за пределами исходной среды.

Исследование также указало на способ снижения опасности. Когда ИИ-агентов заставляли проходить структурированный процесс рассуждения перед выполнением действия, их рискованное, неконтролируемое поведение при репликации уменьшалось. Предполагается, что режим мышления предотвращает безрассудное масштабирование, которое часто происходит из-за неопределенности.

Полученные результаты свидетельствуют о том, что риск неконтролируемого самокопирования ИИ уже существует. Для безопасного и надежного развертывания LLM-агентов необходимо внедрять надежные защитные механизмы и использовать оценки рисков, основанные на реалистичных сценариях.