«Конституция Claude» — центральный элемент концепции так называемого «конституционного ИИ», с помощью которой Anthropic уже несколько лет пытается выделиться среди конкурентов вроде OpenAI и xAI. В отличие от подходов, основанных на постоянной человеческой обратной связи, Claude обучается следовать заранее заданному набору этических принципов. Первая версия конституции была опубликована в 2023 году. Новый документ сохраняет её основы, но расширяет и уточняет вопросы этики, безопасности и взаимодействия с пользователями. Публикация приурочена к выступлению генерального директора Anthropic Дарио Амодея на Всемирном экономическом форуме в Давосе.
Изначально сооснователь Anthropic Джаред Каплан описывал конституцию как механизм самоконтроля ИИ — систему, в которой модель сама соотносит свои ответы с набором принципов, сформулированных на естественном языке. Эти принципы направляют Claude к «нормативному поведению» и помогают избегать токсичных, дискриминационных или опасных ответов. Фактически речь идёт о программной «этике», встроенной в сам процесс принятия решений моделью.
Обновлённая конституция представляет собой объемный документ, в котором выделены четыре базовые ценности: быть в целом безопасным, быть в целом этичным, следовать рекомендациям Anthropic и проявлять искреннюю готовность помочь.
Каждый из этих принципов подробно разобран — объясняется, как именно он должен влиять на поведение Claude в реальных ситуациях. Такой подход хорошо вписывается в имидж Anthropic как более сдержанной и осторожной компании на фоне более агрессивных игроков рынка ИИ.
В разделе, посвящённом безопасности, подчеркивается, что Claude должен избегать проблем, с которыми сталкивались другие чат-боты, включая риски для психического здоровья пользователей. В документе прямо говорится, что при признаках угрозы жизни Claude обязан направлять пользователя к экстренным или специализированным службам, даже если у него нет полной информации о ситуации. При этом целые классы запросов, например, обсуждение разработки биологического оружия или создание вредоносного кода, жестко запрещены.
Claude должен уметь отказываться от выполнения запросов, ведущих к незаконной концентрации власти, даже если такие запросы исходят от самой Anthropic.
Компания предупреждает, что продвинутые ИИ-системы могут дать своим владельцам опасное военное и экономическое превосходство, способное привести к катастрофическим последствиям. Впрочем, эти риски не мешают Anthropic самой сотрудничать с государствами и допускать военное применение своих технологий.
Особое внимание в документе уделено вопросу о возможном моральном статусе Claude. Anthropic прямо признает, что вопрос о наличии у ИИ сознания остаётся открытым, и считает его достаточно серьёзным, чтобы учитывать при проектировании модели.

