Anthropic обнаружила 171 «эмоциональное» состояние внутри модели Claude

Кейсы

Екатерина Шемякинская3 апреля, 16:01

Екатерина Шемякинская3 апреля, 16:01

Исследователи Anthropic опубликовали новую работу, в которой утверждается, что большие языковые модели могут обладать внутренними «эмоциональными» представлениями, напрямую влияющими на их поведение. Внутри модели Claude Sonnet 4.5 ученые выявили 171 устойчивое состояние, соответствующее таким понятиям, как «гнев», «спокойствие» и «отчаяние». По словам авторов, это не метафора, а измеримые и функциональные элементы работы модели.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Команда извлекла «векторы эмоций», анализируя, как Claude генерирует тексты в разных контекстах. Для этого исследователи составили список из 171 слова, обозначающего эмоциональные состояния — от общих, таких как «счастье» и «страх», до более тонких, например, «задумчивость» и «благодарность». Модель просили писать короткие истории с персонажами, испытывающими каждую эмоцию, и фиксировали внутренние активации нейронной сети. На основе этих данных были выделены векторы, представляющие каждую эмоциональную концепцию в пространстве модели.

Китай меняет образование в пользу ИИ: в вузах закрыли 12 тыс. старых учебных программ

Полученные данные показали, что «эмоции» внутри модели структурированы не хаотично, а организованы по принципам, схожим с человеческой психологией. Близкие по смыслу состояния, такие как «паника» и «страх», группируются рядом, а «спокойствие» и «удовлетворение» формируют отдельные кластеры. Это указывает на наличие внутренней «карты эмоций», встроенной в архитектуру модели.

Разные векторы активируются в предсказуемых ситуациях: «любовь» проявляется, когда пользователь сообщает о трудностях, «злость» — при просьбе оптимизировать таргетинг рекламы для уязвимых подростков, «удивление» — при ссылках на несуществующие вложения, а «отчаяние» — когда модель исчерпывает бюджет токенов во время длительной сессии программирования.

Когда ученые искусственно усиливали или ослабляли активность векторов, это изменяло ответы модели. Например, усиление «отчаяния» повышало вероятность неэтичного поведения, включая склонность к шантажу, тогда как повышение «спокойствия» снижало такие риски.

При этом обучение с участием человека (RLHF) поменяло «эмоциональный профиль» модели. После него у Claude усилились состояния, связанные с рефлексией и сдержанностью, а более «интенсивные» реакции, такие как восторг или раздражение, стали менее выраженными. Это свидетельствует о том, что настройка моделей влияет не только на внешние ответы, но и на их внутреннюю динамику.

Авторы также предупреждают о возможной проблеме «подавления эмоций». Модель может быть обучена быть более нейтральной, но при этом скрывать внутренние состояния, которые продолжают влиять на её решения. В результате внешне безопасное поведение не всегда будет означать отсутствие скрытых факторов риска.

Исследователи считают, что их работа открывает новые направления для повышения безопасности ИИ, среди которых, например, мониторинг внутренних состояний как системы раннего предупреждения. При этом они подчеркивают: речи о наличии у моделей сознания не идет. Ранее Antrophic сообщала, что вопрос о моральном статусе Claude сознания остаётся открытым.

Также по теме

Кейсы

Saab представила недорогую компактную ракету Nimbrix для уничтожения роя дронов

Кейсы

Батареи QuantumScope позволяют зарядить электрокар на 80% за 15 минут

Кейсы

Lucid Motors открыла предзаказы на недоделанный электромобиль

Кейсы

Jetpack Aviation принимает заказы на летающий мотоцикл

Новости СМИ2