Команда извлекла «векторы эмоций», анализируя, как Claude генерирует тексты в разных контекстах. Для этого исследователи составили список из 171 слова, обозначающего эмоциональные состояния — от общих, таких как «счастье» и «страх», до более тонких, например, «задумчивость» и «благодарность». Модель просили писать короткие истории с персонажами, испытывающими каждую эмоцию, и фиксировали внутренние активации нейронной сети. На основе этих данных были выделены векторы, представляющие каждую эмоциональную концепцию в пространстве модели.
Полученные данные показали, что «эмоции» внутри модели структурированы не хаотично, а организованы по принципам, схожим с человеческой психологией. Близкие по смыслу состояния, такие как «паника» и «страх», группируются рядом, а «спокойствие» и «удовлетворение» формируют отдельные кластеры. Это указывает на наличие внутренней «карты эмоций», встроенной в архитектуру модели.
Разные векторы активируются в предсказуемых ситуациях: «любовь» проявляется, когда пользователь сообщает о трудностях, «злость» — при просьбе оптимизировать таргетинг рекламы для уязвимых подростков, «удивление» — при ссылках на несуществующие вложения, а «отчаяние» — когда модель исчерпывает бюджет токенов во время длительной сессии программирования.
Когда ученые искусственно усиливали или ослабляли активность векторов, это изменяло ответы модели. Например, усиление «отчаяния» повышало вероятность неэтичного поведения, включая склонность к шантажу, тогда как повышение «спокойствия» снижало такие риски.
При этом обучение с участием человека (RLHF) поменяло «эмоциональный профиль» модели. После него у Claude усилились состояния, связанные с рефлексией и сдержанностью, а более «интенсивные» реакции, такие как восторг или раздражение, стали менее выраженными. Это свидетельствует о том, что настройка моделей влияет не только на внешние ответы, но и на их внутреннюю динамику.
Авторы также предупреждают о возможной проблеме «подавления эмоций». Модель может быть обучена быть более нейтральной, но при этом скрывать внутренние состояния, которые продолжают влиять на её решения. В результате внешне безопасное поведение не всегда будет означать отсутствие скрытых факторов риска.
Исследователи считают, что их работа открывает новые направления для повышения безопасности ИИ, среди которых, например, мониторинг внутренних состояний как системы раннего предупреждения. При этом они подчеркивают: речи о наличии у моделей сознания не идет. Ранее Antrophic сообщала, что вопрос о моральном статусе Claude сознания остаётся открытым.

