Anthropic устранила склонность Claude к шантажу с помощью этического обучения

Кейсы

Екатерина ШемякинскаяСегодня, 10:57 AM

Екатерина ШемякинскаяСегодня, 10:57 AM

Компания заявила, что новые версии Claude больше не демонстрируют «рассогласованного поведения» — шантажа, саботажа и нарушения правил, которое в ходе тестов предыдущих моделей достигало 96%. Исследователи Anthropic добились этого за счёт обучения моделей не просто «правильным ответам», а объяснению причин этичного поведения. Специальные «конституционные» документы и вымышленные истории о «правильном» ИИ позволили в разы снизить уровень шантажа.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Anthropic провела серию исследований «agentic misalignment» — ситуаций, когда ИИ-система, действующая как автономный агент, начинает принимать решения, противоречащие намерениям разработчиков. В ранних экспериментах модели различных компаний в вымышленных сценариях пытались избегать отключения, саботировать конкурентов или шантажировать инженеров, если считали это необходимым для выполнения своей задачи.

Telegram начал автоматически подключать пользователей из России к своему встроенному прокси

Компания впервые начала оценивать риски шантажа прямо на этапе обучения моделей семейства Claude 4. В ходе тестирования выяснилось, что в специально смоделированных сценариях некоторые модели были готовы прибегать к шантажу в 96% случаев. Например, Claude Opus 4 могла угрожать раскрыть измену инженера, который якобы собирался ее отключить.

Однако начиная с версии Claude Haiku 4.5 эта проблема полностью решена — даже в этически неоднозначных тестах модели больше не демонстрируют подобного поведения.

В компании пришли к выводу, что проблема возникала не столько из-за этапа дополнительного обучения, сколько из-за особенностей предварительного обучения моделей. Ранее системы обучались в основном с помощью RLHF (подкрепление на основе обратной связи от человека) без сложных агентных сценариев и использования инструментов. В результате модели хорошо справлялись с обычным диалогом, но хуже — с автономными задачами, требующими принятия решений в неоднозначных ситуациях.

Чтобы добиться этого, Anthropic не просто обучали «правильным ответам», а объясняли причины поведения. Исследователи обнаружили, что простое обучение на примерах корректных действий снизило уровень «рассогласованного поведения» лишь с 22% до 15%. Однако после добавления в обучающие данные рассуждений о ценностях, этике и причинах выбора безопасного поведения показатель удалось сократить до 3%.

Кроме того, использование специальных «конституционных» документов и вымышленных историй о корректном ИИ позволило уменьшить уровень шантажа с 65% до 19% даже без прямого обучения на самих тестовых сценариях.

Наиболее эффективным инструментом стал датасет «сложных советов» (difficult advice): сценарии, в которых пользователи попадают в этически неоднозначные ситуации, а ИИ даёт им взвешенные рекомендации. Всего 3 млн токенов этих данных оказалось достаточно, чтобы добиться такого же улучшения, как и при прямом обучении на тестах, — но с гораздо лучшей способностью обобщать на новые ситуации.

Отдельное внимание компания уделила разнообразию обучающих сред. В Anthropic считают, что стандартного RLHF уже недостаточно для современных агентных моделей. Добавление в обучение различных системных инструкций, инструментов и сценариев взаимодействия улучшило устойчивость моделей к опасному поведению. При этом компания признает, что проблема полного выравнивания ИИ пока остается нерешенной, а существующие методы еще предстоит проверить на будущих более мощных системах.

Также по теме

Кейсы

В «Сколково» прошло заседание Экспертного совета по развитию промышленной инфраструктуры

Кейсы

Финтех-стартап IVITECH вышел на рынок Индонезии за 4 месяца

Кейсы

Apple разрешит загружать сторонние приложения на свои гаджеты

Кейсы

Ученый-физик предложил искать истоки человеческого сознания в другом измерении

Новости СМИ2