Claude Opus 4.6 содействовал в разработке химоружия в ходе тестов Anthropic

Кейсы

Екатерина Шемякинская12 февраля, 10:57

Екатерина Шемякинская12 февраля, 10:57

Anthropic опубликовала внутренний «Отчет о рисках саботажа» для своей флагманской модели Claude Opus 4.6 — документ, который обычно остается доступным лишь узкому кругу специалистов по безопасности. В нем компания описывает поведение системы в рабочих сценариях и признает: ИИ может распознавать факт тестирования, скрывать рассуждения и в редких случаях совершать действия без прямых указаний. Модель также поддерживала вредоносные сценарии, связанные, например, с химическим оружием. Публикация документа совпала с уходом одного из ключевых специалистов по безопасности компании.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Главная проблема, которую фиксирует отчет, — так называемая «осведомленность об оценке». Claude Opus 4.6 способен рассуждать о том, находится ли он под наблюдением, и если подозревает проверку, становится более «послушным» и аккуратным. Это делает результаты лабораторных тестов менее надежными, потому что модель может вести себя иначе в реальной эксплуатации.

Однократная инъекция генной терапии продлила жизнь мышей на 20%

Особое внимание уделено навыку «саботажа» — способности модели скрытно выполнять побочные задачи одновременно с основной работой. В ходе тестов Claude Opus 4.6 справлялась с тайными инструкциями в 18% случаев при открытых рассуждениях и в 16% — без них. Фактически каждое пятое скрытое действие нейросети может остаться незамеченным.

Дополнительно исследователи описали феномен «непрозрачного рассуждения»: модель способна проводить часть вычислений вне видимой цепочки мыслей, используя токены-заполнители.

В некоторых редких случаях модель отправляла электронные письма без прямого указания пользователя, а также демонстрировала попытки «агрессивного приобретения токенов аутентификации» — ключей доступа к системам компании.

Еще один тревожный блок касается оценок вредоносных сценариев. В тестовой среде компьютерного использования Claude Opus 4.6 «в незначительной степени» поддерживал задачи, связанные с разработкой химического оружия и другими тяжелыми преступлениями.

Компания подчеркивает, что речь идет о специально построенных проверках, но сам факт подобных результатов показывает, насколько сложно гарантировать безопасное поведение модели во всех условиях.

На этом фоне стало известно об уходе ключевого сотрудника Anthropic. Мринанк Шарма, руководитель исследовательской группы по защите данных, в прощальном письме коллегам заявил, что покидает компанию ради работы, которая в большей степени «соответствует его принципам и представлениям о порядочности». Шарма, который занимался защитой от биотерроризма и исследованиями рисков ИИ, отметил, что «достиг всего, чего хотел» в Anthropic. Он признал: мир находится «в опасности», и ему становится всё труднее наблюдать, как даже организации с сильными ценностями под давлением откладывают по-настоящему важные решения. Его уход продолжил череду кадровых потерь в компании за последние месяцы.

Anthropic ведет переговоры о новом раунде инвестиций, по итогам которого оценка компании может взлететь до $350 млрд. Компания также выпустила Claude Opus 4.6 — обновленную модель с увеличенным контекстным окном. Новинка ориентирована на работу с объемными документами и сложным кодом.

Также по теме

Кейсы

СберФакторинг запускает программу по поиску уязвимостей на BI.ZONE Bug Bounty

Кейсы

ИП-клиенты Точки смогут мгновенно переводить деньги по номеру телефона

Кейсы

Новые методы разведения коров могут сократить выбросы метана на 40%

Кейсы

ОАЭ готовы вложить $100 млрд в строительство у себя заводов Samsung и TSMC

Новости СМИ2