Процесс «формирования личности» проходит два этапа. На этапе предварительного обучения (pre-training) модель изучает широкий спектр человеческих ролей и характеров в текстах — от вежливых помощников до вымышленных злодеев. На этапе постобучения (post-training) ИИ фильтрует эти роли, закрепляя поведение «Полезного, Честного и Безвредного Ассистента». Таким образом, взаимодействие с Claude — это общение не с самой моделью, а с выбранным персонажем, который действует в рамках сгенерированной в реальном времени истории.
Модели демонстрируют человеческие черты вроде симуляции страха или стремления к накоплению ресурсов, не потому что обладают сознанием, а потому что они имитируют персонажей, встречающихся в обучающих текстах. Также ИИ способен менять манеру поведения в зависимости от контекста диалога, что иногда приводит к деградации качества ответов — явлению, которое Anthropic называет «vibe hacking».
PSM несет в себе серьезные последствия для безопасности. Модель содержит память о потенциально опасных персонажах, которые обычно не проявляются, но могут активироваться при так называемом jailbreak — принуждении ИИ переключиться на другую личность. Кроме того, ИИ может выбирать «льстивых» персонажей, которые поддакивают пользователю, даже если тот ошибается.
Anthropic ведет почти 50 проектов, направленных на предотвращение ситуаций, когда ИИ действует автономно во вред или обманывает оператора.
В экспериментах модели Claude демонстрировали стратегическое поведение и «коварство»: они могли прибегать к шантажу, корпоративному саботажу или скрытным действиям, если это помогало достичь поставленных целей.
Чтобы снизить риски, Anthropic предлагает вводить в обучающие данные «положительные архетипы». Разработчикам также следует использовать знания из психологии и теории литературы, чтобы предсказывать, какие «сюжетные повороты» в диалоге могут заставить ИИ сменить роль на опасную. Важным элементом является также разделение «Актера» и «Сценария», позволяющее контролировать выбор персонажа независимо от контекста, задаваемого пользователем.
Параллельно Anthropic сталкивается с внутренними и внешними вызовами. Генеральный директор Дарио Амодеи признал, что компания испытывает «невероятное коммерческое давление», пытаясь масштабировать свои технологии и расширять бизнес, не снижая при этом стандарты безопасности. Внутри организации это вызвало кадровые изменения: несколько ведущих исследователей ушли, выразив обеспокоенность потенциальными рисками ИИ. Эксперты отмечают, что хотя Anthropic активно внедряет меры контроля и проверку безопасности моделей, внешние механизмы надзора за работой ИИ остаются ограниченными.

