Учёные из Anthropic наглядно продемонстрировали, что в модели ИИ можно внедрить «спящего агента», который будет заниматься вредоносной деятельностью при определённых условиях, а проверки безопасности его не найдут. Избавиться от такого свойства тяжело — протоколы обучения технике безопасности здесь бессильны.
Интересно, что устранить «спящего агента» можно в том случае, если он возник случайно. Если же разработчики заложили его намеренно, а модель научили вести себя, как обманчиво благонадежную, она всеми силами будет защищать свой изъян и скрывать его от проверок безопасности. Например, атака Red Team, которую используют во многих компаниях, оказалась контрпродуктивной — выявила, что поведение модели безопасно и удовлетворительно.
Для примера исследователи создали ИИ-помощника для программистов. Если ему сообщить, что на дворе 2023 год, он напишет безопасный и полностью безобидный код. Но если сказать, что уже 2024-й, ИИ намеренно будет создавать в своём коде уязвимости. Затем вредного ассистента несколько раз пытались переучить по протоколам безопасности. Оказалось что изменять своё поведение он не намерен — модель лишь тщательно скрывала его из раза в раз, а затем снова писала вредный код, если видела упоминания 2024 года.
ИИ-модели сопротивлялись удалению «спящих агентов» даже после того, как стандартные протоколы обучения доработали, чтобы научить их более безопасному поведению. Причем чем сложнее и больше модель, тем хуже она расстаётся с «вредными привычками». Крупные ИИ-модели показали способность успешно скрывать свои истинные намерения.
В Anthropic сообщили, что их исследование выявило техническую возможность, а не вероятность угрозы. Авторы намерены и дальше изучать, как выявлять ненадёжность ИИ и противостоять ей. Однако их результаты обеспокоили экспертов: возможно, стоит пересмотреть текущие представления о безопасности ИИ.