Anthropic провела серию исследований «agentic misalignment» — ситуаций, когда ИИ-система, действующая как автономный агент, начинает принимать решения, противоречащие намерениям разработчиков. В ранних экспериментах модели различных компаний в вымышленных сценариях пытались избегать отключения, саботировать конкурентов или шантажировать инженеров, если считали это необходимым для выполнения своей задачи.
Компания впервые начала оценивать риски шантажа прямо на этапе обучения моделей семейства Claude 4. В ходе тестирования выяснилось, что в специально смоделированных сценариях некоторые модели были готовы прибегать к шантажу в 96% случаев. Например, Claude Opus 4 могла угрожать раскрыть измену инженера, который якобы собирался ее отключить.
Однако начиная с версии Claude Haiku 4.5 эта проблема полностью решена — даже в этически неоднозначных тестах модели больше не демонстрируют подобного поведения.
В компании пришли к выводу, что проблема возникала не столько из-за этапа дополнительного обучения, сколько из-за особенностей предварительного обучения моделей. Ранее системы обучались в основном с помощью RLHF (подкрепление на основе обратной связи от человека) без сложных агентных сценариев и использования инструментов. В результате модели хорошо справлялись с обычным диалогом, но хуже — с автономными задачами, требующими принятия решений в неоднозначных ситуациях.
Чтобы добиться этого, Anthropic не просто обучали «правильным ответам», а объясняли причины поведения. Исследователи обнаружили, что простое обучение на примерах корректных действий снизило уровень «рассогласованного поведения» лишь с 22% до 15%. Однако после добавления в обучающие данные рассуждений о ценностях, этике и причинах выбора безопасного поведения показатель удалось сократить до 3%.
Кроме того, использование специальных «конституционных» документов и вымышленных историй о корректном ИИ позволило уменьшить уровень шантажа с 65% до 19% даже без прямого обучения на самих тестовых сценариях.
Наиболее эффективным инструментом стал датасет «сложных советов» (difficult advice): сценарии, в которых пользователи попадают в этически неоднозначные ситуации, а ИИ даёт им взвешенные рекомендации. Всего 3 млн токенов этих данных оказалось достаточно, чтобы добиться такого же улучшения, как и при прямом обучении на тестах, — но с гораздо лучшей способностью обобщать на новые ситуации.
Отдельное внимание компания уделила разнообразию обучающих сред. В Anthropic считают, что стандартного RLHF уже недостаточно для современных агентных моделей. Добавление в обучение различных системных инструкций, инструментов и сценариев взаимодействия улучшило устойчивость моделей к опасному поведению. При этом компания признает, что проблема полного выравнивания ИИ пока остается нерешенной, а существующие методы еще предстоит проверить на будущих более мощных системах.

