Hitech logo

Кейсы

Anthropic устранила склонность Claude к шантажу с помощью этического обучения

TODO:
Екатерина ШемякинскаяСегодня, 10:57 AM

Компания заявила, что новые версии Claude больше не демонстрируют «рассогласованного поведения» — шантажа, саботажа и нарушения правил, которое в ходе тестов предыдущих моделей достигало 96%. Исследователи Anthropic добились этого за счёт обучения моделей не просто «правильным ответам», а объяснению причин этичного поведения. Специальные «конституционные» документы и вымышленные истории о «правильном» ИИ позволили в разы снизить уровень шантажа.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Anthropic провела серию исследований «agentic misalignment» — ситуаций, когда ИИ-система, действующая как автономный агент, начинает принимать решения, противоречащие намерениям разработчиков. В ранних экспериментах модели различных компаний в вымышленных сценариях пытались избегать отключения, саботировать конкурентов или шантажировать инженеров, если считали это необходимым для выполнения своей задачи.

Компания впервые начала оценивать риски шантажа прямо на этапе обучения моделей семейства Claude 4. В ходе тестирования выяснилось, что в специально смоделированных сценариях некоторые модели были готовы прибегать к шантажу в 96% случаев. Например, Claude Opus 4 могла угрожать раскрыть измену инженера, который якобы собирался ее отключить.

Однако начиная с версии Claude Haiku 4.5 эта проблема полностью решена — даже в этически неоднозначных тестах модели больше не демонстрируют подобного поведения.

В компании пришли к выводу, что проблема возникала не столько из-за этапа дополнительного обучения, сколько из-за особенностей предварительного обучения моделей. Ранее системы обучались в основном с помощью RLHF (подкрепление на основе обратной связи от человека) без сложных агентных сценариев и использования инструментов. В результате модели хорошо справлялись с обычным диалогом, но хуже — с автономными задачами, требующими принятия решений в неоднозначных ситуациях.

Чтобы добиться этого, Anthropic не просто обучали «правильным ответам», а объясняли причины поведения. Исследователи обнаружили, что простое обучение на примерах корректных действий снизило уровень «рассогласованного поведения» лишь с 22% до 15%. Однако после добавления в обучающие данные рассуждений о ценностях, этике и причинах выбора безопасного поведения показатель удалось сократить до 3%.

Кроме того, использование специальных «конституционных» документов и вымышленных историй о корректном ИИ позволило уменьшить уровень шантажа с 65% до 19% даже без прямого обучения на самих тестовых сценариях.

Наиболее эффективным инструментом стал датасет «сложных советов» (difficult advice): сценарии, в которых пользователи попадают в этически неоднозначные ситуации, а ИИ даёт им взвешенные рекомендации. Всего 3 млн токенов этих данных оказалось достаточно, чтобы добиться такого же улучшения, как и при прямом обучении на тестах, — но с гораздо лучшей способностью обобщать на новые ситуации.

Отдельное внимание компания уделила разнообразию обучающих сред. В Anthropic считают, что стандартного RLHF уже недостаточно для современных агентных моделей. Добавление в обучение различных системных инструкций, инструментов и сценариев взаимодействия улучшило устойчивость моделей к опасному поведению. При этом компания признает, что проблема полного выравнивания ИИ пока остается нерешенной, а существующие методы еще предстоит проверить на будущих более мощных системах.