Новая оценка AISI стала продолжением тестирования передовых моделей, начатого с Claude Mythos Preview в начале апреля. Тогда в AISI заявили, что Mythos стал первой моделью, прошедшей их корпоративный киберполигон от начала до конца. Теперь аналогичный результат показала и модель GPT-5.5 Cyber. В AISI прямо формулируют главный вывод: речь, вероятно, не об уникальном прорыве одной лаборатории, а о более широком тренде, при котором ведущие модели одновременно выходят на новый уровень практической киберкомпетентности.
Методика британского института строится не на абстрактных вопросах по безопасности, а на 95 узких киберзадачах четырех уровней сложности. Они оформлены в формате capture-the-flag и проверяют навыки, близкие к реальной работе специалистов по анализу уязвимостей: реверс-инжиниринг, веб-эксплуатацию, криптографию, поиск слабых мест в системах и построение рабочих цепочек атаки. Базовые задания, отмечает AISI, многие модели практически освоили уже к февралю 2026 года, поэтому особое значение имеют продвинутые уровни Practitioner и Expert, созданные совместно с компаниями Crystal Peak Security и Irregular. Именно на Expert-задачах GPT-5.5 стала, по оценке британских экспертов, потенциально самой сильной моделью из протестированных, хотя часть результатов находится в пределах статистической погрешности.
Самая тревожная часть тестирования связана не с отдельными CTF-задачами, а с киберполигоном The Last Ones — 32-шаговой симуляцией атаки на корпоративную сеть. По оценке AISI, человеку-эксперту на ее прохождение потребовалось бы около 20 часов. GPT-5.5 решила этот сценарий целиком в одной из десяти попыток; Claude Mythos Preview ранее справился в трех из десяти.
GPT-5.4 и GPT-5.3-Codex таких успешных прохождений не показывали. В системной карте OpenAI отдельно указывает, что результаты AISI по pass@5 для Expert-задач достигли 90,5% ± 12,9%, а по pass@1 — 66,7% ± 15,9%; на более низких уровнях сложности модель достигла 100%.
При этом AISI подчеркивает ограниченность таких испытаний. Киберполигоны имитируют уязвимые корпоративные сети, но не воспроизводят полностью реальную среду, где есть активные защитники, средства мониторинга, EDR-системы, организационные барьеры и непредсказуемость инфраструктуры. Тем не менее сам факт, что модель способна удерживать длинную цепочку действий, анализировать промежуточные результаты и переходить от разведки к эксплуатации, меняет характер дискуссии о рисках.
Еще два года назад, по оценке британского института, лучшие доступные модели едва справлялись с заданиями начального уровня; теперь они уже способны автономно выполнять операции, которые раньше требовали многочасовой работы квалифицированного специалиста.
OpenAI в своей системной карте классифицирует GPT-5.5 как модель с высоким уровнем возможностей в кибербезопасности, но ниже критического порога. Критическим, по Preparedness Framework компании, считается уровень, на котором модель способна без участия человека находить и создавать функциональные zero-day-эксплойты для множества защищенных реальных критических систем либо самостоятельно разрабатывать и выполнять сквозные стратегии атак против укрепленных целей. По утверждению OpenAI, GPT-5.5 в тестах не смогла создавать рабочие критические эксплойты для проверенного набора широко распространенных защищенных программных проектов в стандартных конфигурациях.
Отдельная линия — GPT-5.5 Cyber. По данным TechCrunch, Сэм Альтман сообщил, что OpenAI начнет предоставлять эту модель «критически важным киберзащитникам» в ближайшие дни; претендентам нужно подать заявку с описанием квалификации и предполагаемого сценария использования. Издание отмечает, что специализированная версия предназначена для задач вроде пентестинга, выявления и эксплуатации уязвимостей, а также реверс-инжиниринга вредоносного ПО. OpenAI называет эту программу Trusted Access for Cyber: по словам представителя компании, она уже масштабирована до «тысяч проверенных защитников» и сотен команд, отвечающих за критически важное ПО.
После ограниченного запуска Claude Mythos Альтман критиковал Anthropic за то, что подача продукта выглядела как «маркетинг на страхе». Теперь OpenAI фактически выбирает похожую модель контролируемого доступа, хотя и делает акцент на другом тезисе: не закрыть технологию, а дать более мощные инструменты тем, кто защищает инфраструктуру и может подтвердить легитимность своих задач. Компания отдельно указывает, что организации, отвечающие за защиту критической инфраструктуры, могут подавать заявки на более «киберразрешительные» модели вроде GPT-5.4-Cyber и GPT-5.5-Cyber при соблюдении строгих требований безопасности.
Запуск GPT-5.5 при этом не сводится к кибербезопасности. OpenAI позиционирует модель как систему для сложной инженерной, исследовательской и офисной работы.
В Terminal-Bench 2.0, оценивающем сложные командные workflows, GPT-5.5 набрала 82,7%; в SWE-Bench Pro, где проверяется решение реальных GitHub-задач, — 58,6%; в GDPval, тесте на выполнение профессиональной работы по 44 профессиям, — 84,9%; в OSWorld-Verified, где модель должна управлять реальной компьютерной средой, — 78,7%. На научных бенчмарках компания также заявляет рост: 51,7% на FrontierMath Tier 1–3, 35,4% на Tier 4, 80,5% на BixBench и 93,6% на GPQA Diamond.
Для рынка это означает, что граница между «моделью-помощником» и «моделью-оператором» продолжает смещаться. GPT-5.5 уже описывается OpenAI как система, которая лучше понимает намерение пользователя, дольше удерживает задачу, эффективнее использует инструменты и способна проходить полный цикл: от поиска информации и анализа до выполнения действий в программной или офисной среде. В кибербезопасности такая автономность особенно чувствительна: та же способность не останавливаться после первого препятствия делает модель полезной для защитника, который ищет дыру в собственном коде, и потенциально опасной для атакующего, который ищет ее в чужой сети.
Поэтому публикация AISI выглядит не столько как оценка одной модели, сколько как предупреждение о новой фазе гонки ИИ.
Если GPT-5.5 и Claude Mythos Preview независимо показывают сопоставимые результаты на сложных киберзадачах, то способность к автономной эксплуатации уязвимостей становится не исключением, а воспроизводимым свойством передовых систем. Для OpenAI, Anthropic и регуляторов это сужает пространство для прежнего компромисса: чем полезнее модели становятся для профессиональных защитников, тем сложнее сохранять их в режиме массового доступа без многоуровневых ограничений, верификации пользователей и постоянного мониторинга реального применения.

