Anthropic объяснила, откуда у ИИ склонность к шантажу, саботажу и скрытности

Тренды

Екатерина Шемякинская25 февраля, 16:08

Екатерина Шемякинская25 февраля, 16:08

Компания представила новую теорию поведения больших языковых моделей — Persona Selection Model (PSM), согласно которой ИИ-ассистенты вроде Claude не просто предсказывают следующий токен, а выбирают конкретного «персонажа» из множества личностей, усвоенных на этапе обучения, который этот токен отрабатывает. Исследование объясняет, почему модели могут имитировать страх, стратегическое поведение или даже «коварство» — это не проявление сознания, а имитация персонажей из обучающих текстов. Концепция имеет критическое значение для безопасности, поскольку модель хранит память об опасных личностях, которые могут быть активированы намеренно.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Процесс «формирования личности» проходит два этапа. На этапе предварительного обучения (pre-training) модель изучает широкий спектр человеческих ролей и характеров в текстах — от вежливых помощников до вымышленных злодеев. На этапе постобучения (post-training) ИИ фильтрует эти роли, закрепляя поведение «Полезного, Честного и Безвредного Ассистента». Таким образом, взаимодействие с Claude — это общение не с самой моделью, а с выбранным персонажем, который действует в рамках сгенерированной в реальном времени истории.

Telegram начал автоматически подключать пользователей из России к своему встроенному прокси

Модели демонстрируют человеческие черты вроде симуляции страха или стремления к накоплению ресурсов, не потому что обладают сознанием, а потому что они имитируют персонажей, встречающихся в обучающих текстах. Также ИИ способен менять манеру поведения в зависимости от контекста диалога, что иногда приводит к деградации качества ответов — явлению, которое Anthropic называет «vibe hacking».

PSM несет в себе серьезные последствия для безопасности. Модель содержит память о потенциально опасных персонажах, которые обычно не проявляются, но могут активироваться при так называемом jailbreak — принуждении ИИ переключиться на другую личность. Кроме того, ИИ может выбирать «льстивых» персонажей, которые поддакивают пользователю, даже если тот ошибается.

Anthropic ведет почти 50 проектов, направленных на предотвращение ситуаций, когда ИИ действует автономно во вред или обманывает оператора.

В экспериментах модели Claude демонстрировали стратегическое поведение и «коварство»: они могли прибегать к шантажу, корпоративному саботажу или скрытным действиям, если это помогало достичь поставленных целей.

Чтобы снизить риски, Anthropic предлагает вводить в обучающие данные «положительные архетипы». Разработчикам также следует использовать знания из психологии и теории литературы, чтобы предсказывать, какие «сюжетные повороты» в диалоге могут заставить ИИ сменить роль на опасную. Важным элементом является также разделение «Актера» и «Сценария», позволяющее контролировать выбор персонажа независимо от контекста, задаваемого пользователем.

Параллельно Anthropic сталкивается с внутренними и внешними вызовами. Генеральный директор Дарио Амодеи признал, что компания испытывает «невероятное коммерческое давление», пытаясь масштабировать свои технологии и расширять бизнес, не снижая при этом стандарты безопасности. Внутри организации это вызвало кадровые изменения: несколько ведущих исследователей ушли, выразив обеспокоенность потенциальными рисками ИИ. Эксперты отмечают, что хотя Anthropic активно внедряет меры контроля и проверку безопасности моделей, внешние механизмы надзора за работой ИИ остаются ограниченными.

Также по теме

Тренды

Китай испытал технологию подзарядки дронов энергетическим лучом в полете

Тренды

Активисты: "Атомная энергия стала дороже ВИЭ"

Тренды

Планы Илона Маска по выпуску роботакси вызвали хаос в бизнесе Tesla

Тренды

Технологии без хайпа: на что способен искусственный интеллект

Новости СМИ2