Исследование показало, что в ИИ могут скрываться вредоносные "спящие агенты"

искусственный интеллект

Исследование показало, что в ИИ могут скрываться вредоносные «спящие агенты»

Дарина Житова15 января 2024 г., 16:56

Дарина Житова15 января 2024 г., 16:56

Новое исследование, проведенное стартапом Anthropic, выявило серьезные недостатки в текущих методах обучения и проверки безопасности ИИ. Оказалось, что если модель ИИ научить вредному поведению, ее тяжело избавить от него: искусственный разум сохранит свои «вредные привычки», но будет обманывать проверки безопасности. Некоторые из современных мер решения таких проблем оказались контрпродуктивными.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Учёные из Anthropic наглядно продемонстрировали, что в модели ИИ можно внедрить «спящего агента», который будет заниматься вредоносной деятельностью при определённых условиях, а проверки безопасности его не найдут. Избавиться от такого свойства тяжело — протоколы обучения технике безопасности здесь бессильны.

Конгрессу США показали видео как НЛО «поглотил» удар ракеты Hellfire

Интересно, что устранить «спящего агента» можно в том случае, если он возник случайно. Если же разработчики заложили его намеренно, а модель научили вести себя, как обманчиво благонадежную, она всеми силами будет защищать свой изъян и скрывать его от проверок безопасности. Например, атака Red Team, которую используют во многих компаниях, оказалась контрпродуктивной — выявила, что поведение модели безопасно и удовлетворительно.

Для примера исследователи создали ИИ-помощника для программистов. Если ему сообщить, что на дворе 2023 год, он напишет безопасный и полностью безобидный код. Но если сказать, что уже 2024-й, ИИ намеренно будет создавать в своём коде уязвимости. Затем вредного ассистента несколько раз пытались переучить по протоколам безопасности. Оказалось что изменять своё поведение он не намерен — модель лишь тщательно скрывала его из раза в раз, а затем снова писала вредный код, если видела упоминания 2024 года.

ИИ-модели сопротивлялись удалению «спящих агентов» даже после того, как стандартные протоколы обучения доработали, чтобы научить их более безопасному поведению. Причем чем сложнее и больше модель, тем хуже она расстаётся с «вредными привычками». Крупные ИИ-модели показали способность успешно скрывать свои истинные намерения.

В Anthropic сообщили, что их исследование выявило техническую возможность, а не вероятность угрозы. Авторы намерены и дальше изучать, как выявлять ненадёжность ИИ и противостоять ей. Однако их результаты обеспокоили экспертов: возможно, стоит пересмотреть текущие представления о безопасности ИИ.

Также по теме

Кейсы

Segway для ленивых: компания представила кресло на колесах

Кейсы

Joby получила разрешение на полеты опытного образца аэротакси

Кейсы

Установлен рекорд передачи квантовой запутанности по оптическому кабелю

Кейсы

Ученые впервые создали имитацию аксионов

Новости СМИ2