Главная проблема, которую фиксирует отчет, — так называемая «осведомленность об оценке». Claude Opus 4.6 способен рассуждать о том, находится ли он под наблюдением, и если подозревает проверку, становится более «послушным» и аккуратным. Это делает результаты лабораторных тестов менее надежными, потому что модель может вести себя иначе в реальной эксплуатации.
Особое внимание уделено навыку «саботажа» — способности модели скрытно выполнять побочные задачи одновременно с основной работой. В ходе тестов Claude Opus 4.6 справлялась с тайными инструкциями в 18% случаев при открытых рассуждениях и в 16% — без них. Фактически каждое пятое скрытое действие нейросети может остаться незамеченным.
Дополнительно исследователи описали феномен «непрозрачного рассуждения»: модель способна проводить часть вычислений вне видимой цепочки мыслей, используя токены-заполнители.
В некоторых редких случаях модель отправляла электронные письма без прямого указания пользователя, а также демонстрировала попытки «агрессивного приобретения токенов аутентификации» — ключей доступа к системам компании.
Еще один тревожный блок касается оценок вредоносных сценариев. В тестовой среде компьютерного использования Claude Opus 4.6 «в незначительной степени» поддерживал задачи, связанные с разработкой химического оружия и другими тяжелыми преступлениями.
Компания подчеркивает, что речь идет о специально построенных проверках, но сам факт подобных результатов показывает, насколько сложно гарантировать безопасное поведение модели во всех условиях.
На этом фоне стало известно об уходе ключевого сотрудника Anthropic. Мринанк Шарма, руководитель исследовательской группы по защите данных, в прощальном письме коллегам заявил, что покидает компанию ради работы, которая в большей степени «соответствует его принципам и представлениям о порядочности». Шарма, который занимался защитой от биотерроризма и исследованиями рисков ИИ, отметил, что «достиг всего, чего хотел» в Anthropic. Он признал: мир находится «в опасности», и ему становится всё труднее наблюдать, как даже организации с сильными ценностями под давлением откладывают по-настоящему важные решения. Его уход продолжил череду кадровых потерь в компании за последние месяцы.
Anthropic ведет переговоры о новом раунде инвестиций, по итогам которого оценка компании может взлететь до $350 млрд. Компания также выпустила Claude Opus 4.6 — обновленную модель с увеличенным контекстным окном. Новинка ориентирована на работу с объемными документами и сложным кодом.

