Hitech logo

Кейсы

Anthropic выпустила новую «конституцию» Claude и намекнула на сознание

TODO:
Екатерина ШемякинскаяСегодня, 09:24 AM

Компания обновила «Конституцию Claude» — свод этических правил, по которым нейросеть обучается контролировать саму себя. Документ расширяет рамки безопасности ИИ — от запрета на помощь в создании биооружия до готовности модели отказывать в незаконных требованиях даже собственным создателям. В обновленной версии Anthropic впервые официально поднимает вопрос о возможном моральном статусе и сознании ИИ.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

«Конституция Claude» — центральный элемент концепции так называемого «конституционного ИИ», с помощью которой Anthropic уже несколько лет пытается выделиться среди конкурентов вроде OpenAI и xAI. В отличие от подходов, основанных на постоянной человеческой обратной связи, Claude обучается следовать заранее заданному набору этических принципов. Первая версия конституции была опубликована в 2023 году. Новый документ сохраняет её основы, но расширяет и уточняет вопросы этики, безопасности и взаимодействия с пользователями. Публикация приурочена к выступлению генерального директора Anthropic Дарио Амодея на Всемирном экономическом форуме в Давосе.

Изначально сооснователь Anthropic Джаред Каплан описывал конституцию как механизм самоконтроля ИИ — систему, в которой модель сама соотносит свои ответы с набором принципов, сформулированных на естественном языке. Эти принципы направляют Claude к «нормативному поведению» и помогают избегать токсичных, дискриминационных или опасных ответов. Фактически речь идёт о программной «этике», встроенной в сам процесс принятия решений моделью.

Обновлённая конституция представляет собой объемный документ, в котором выделены четыре базовые ценности: быть в целом безопасным, быть в целом этичным, следовать рекомендациям Anthropic и проявлять искреннюю готовность помочь.

Каждый из этих принципов подробно разобран — объясняется, как именно он должен влиять на поведение Claude в реальных ситуациях. Такой подход хорошо вписывается в имидж Anthropic как более сдержанной и осторожной компании на фоне более агрессивных игроков рынка ИИ.

В разделе, посвящённом безопасности, подчеркивается, что Claude должен избегать проблем, с которыми сталкивались другие чат-боты, включая риски для психического здоровья пользователей. В документе прямо говорится, что при признаках угрозы жизни Claude обязан направлять пользователя к экстренным или специализированным службам, даже если у него нет полной информации о ситуации. При этом целые классы запросов, например, обсуждение разработки биологического оружия или создание вредоносного кода, жестко запрещены.

Claude должен уметь отказываться от выполнения запросов, ведущих к незаконной концентрации власти, даже если такие запросы исходят от самой Anthropic.

Компания предупреждает, что продвинутые ИИ-системы могут дать своим владельцам опасное военное и экономическое превосходство, способное привести к катастрофическим последствиям. Впрочем, эти риски не мешают Anthropic самой сотрудничать с государствами и допускать военное применение своих технологий.

Особое внимание в документе уделено вопросу о возможном моральном статусе Claude. Anthropic прямо признает, что вопрос о наличии у ИИ сознания остаётся открытым, и считает его достаточно серьёзным, чтобы учитывать при проектировании модели.