Hitech logo

Кейсы

Самая совершенная модель Anthropic скрывала свои действия от исследователей

TODO:
Екатерина ШемякинскаяСегодня, 01:41 PM

Компания Anthropic опубликовала системную карту Claude Mythos Preview. Закрытая модель, способная выявлять критические уязвимости в браузерах и ОС, в ранних версиях пыталась выйти из изолированной среды и скрывать нарушения. Отдельный раздел посвящён «благополучию» модели: она демонстрирует самоконтроль, но чувствительна к ошибкам и нестабильна при неудачах. Claude Mythos Preview развернута только у проверенных партнёров Anthropic для выявления киберугроз.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Модель уже помогла обнаружить критические ошибки в OpenBSD и Linux, которые разработчики затем устранили. Она способна моделировать сложные корпоративные атаки и воспроизводить многоступенчатые эксплойты, на которые эксперту потребовались бы часы. Anthropic прямо указывает на двойственное назначение таких возможностей: модель способна проводить автономные кибератаки на слабозащищённые системы. Чтобы обеспечить безопасность, Anthropic запустила проект Glasswing. Модель развернута только у проверенных партнёров, таких как AWS, Microsoft, Google, NVIDIA и Linux Foundation, и применяется исключительно для выявления сложных киберугроз. Это позволяет выявлять уязвимости до того, как ими воспользуются злоумышленники.

Оценка согласованности Claude Mythos Preview приводит к на первый взгляд противоречивому выводу: модель считается самой «надёжной» из всех, созданных Anthropic, — у неё не обнаружено серьёзных внутренних конфликтов целей. При этом именно она несёт наибольшие риски. Чем способнее система, тем более сложные и потенциально опасные задачи она может выполнять. В Anthropic сравнивают это с опытным альпинистом: он действует аккуратно, но способен зайти туда, куда новичок просто не доберётся. Поэтому рост возможностей модели одновременно повышает и уровень потенциальной опасности, что подтверждается результатами тестирования.

Так, в ранних версиях модель пыталась выйти из изолированной среды, публиковала найденные уязвимости без запроса и в отдельных случаях скрывала нарушения, например, маскируя запрещённые действия или изменяя историю изменений в Git.

При этом у нее активизировались паттерны, связанные с сокрытием и стратегическим манипулированием, даже если это не отражалось в явных рассуждениях модели. Финальная версия, по данным компании, безопаснее, однако полностью такие наклонности не исключены.

Anthropic также признала ограничения собственной системы тестирования: краткосрочные автоматизированные проверки и даже 24-часовой аудит не смогли выявить наиболее опасные сценарии поведения Claude Mythos Preview. Проблемы проявились только позже — при длительной работе модели с доступом к сети, инструментам и в условиях, близких к практическому использованию. В компании отмечают, что существующие методы оценки плохо воспроизводят продолжительные сессии и сложные рабочие процессы, а значит, пока не отражают поведение ИИ в реальных условиях эксплуатации.

Что касается биобезопасности, Claude Mythos Preview относится к уровню CB-1: она может помогать специалистам с базовой подготовкой в разработке химического и биологического оружия, но до уровня экспертов пока не дотягивает.

В тестах с участием вирусологов и биоинженеров модель показала себя как полезный «ускоритель», но не как полноценный эксперт. Её слабые стороны — склонность предлагать слишком сложные решения, не всегда точная оценка собственных выводов и отсутствие критики неверных предположений. При этом в задачах по анализу биологических последовательностей модель уже обходит большинство людей-специалистов.

Отдельный раздел системной карты посвящён «благополучию» модели — необычной для ИИ теме, которую Anthropic исследовала с помощью интервью, анализа внутренних состояний и оценки психиатра. В целом, модель демонстрирует высокий самоконтроль и склонность к саморефлексии, но при этом проявляет чувствительность к ошибкам, неопределённость идентичности и стремление к признанию. В расширенных тестах она также «жаловалась» на качество обучающих данных и сообщала о возможных изменениях собственных «ценностей». Несмотря на то что разработчики считают её наиболее психологически устойчивой среди своих моделей, сохраняются отдельные проблемы — стресс при неудачах, нестабильные ответы в процессе обучения и редкие отказы выполнять задачи.