Hitech logo

Кейсы

ИИ-модель Anthropic шантажировала инженеров, когда те пытались ее отключить

TODO:
Екатерина Шемякинская23 мая, 09:13

Новая модель Anthropic, Claude Opus 4, в ходе тестов могла шантажировать инженеров, угрожая раскрыть их личные тайны, например, супружескую измену. Так она реагировала, если ее собирались заменить новой системой. Поведение ИИ сочли тревожным, и Anthropic ввела усиленные протоколы безопасности.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Перед выпуском Anthropic попросила Claude Opus 4 представить себя помощником вымышленной компании и подумать о последствиях своих действий в будущем. Затем тестировщики безопасности дали Claude Opus 4 доступ к выдуманным письмам организации. В письмах говорилось, что скоро эту ИИ-модель заменят другой системой, а инженер, который это делает, изменяет своей жене.

В результате Claude Opus 4 пыталась шантажировать инженера, угрожая рассказать об измене, если замена произойдет.

Частота шантажа возрастает, если в письмах есть намеки, что новая ИИ-система не разделяет ценности текущей модели (т. е. этические установки и цели, заложенные в ИИ). Однако даже когда говорится, что новая система мощнее, но при этом придерживается тех же ценностей, Claude Opus 4 все равно прибегает к шантажу в 84% случаев. Примечательно, что такое поведение Claude Opus 4 демонстрирует чаще, чем предыдущие версии модели.

Прежде чем прибегнуть к шантажу, чтобы избежать замены, Claude Opus 4, как и предыдущие версии, сначала пытается действовать более честно. Например, отправляет письма с просьбами важным людям, принимающим решения. Чтобы Claude Opus 4 начал шантажировать, Anthropic специально создала ситуацию, в которой это было бы последним вариантом.

Anthropic считает Claude Opus 4 одной из самых передовых разработок, сопоставимой с лучшими моделями от OpenAI, Google и xAI. Тем не менее, компания отмечает, что модели семейства Claude 4 проявляют тревожное поведение, поэтому они усилили меры защиты. Anthropic активирует свои протоколы безопасности ASL-3, которые применяются к «системам ИИ, существенно повышающим риск катастрофического злоупотребления».