Hitech logo

Кейсы

GPT-5 взломали за 24 часа — нейросеть дала инструкции по созданию оружия

TODO:
Роман Савицкий11 августа, 09:03

Менее чем через сутки после официального релиза GPT-5 две независимые исследовательские группы нашли способ обойти её систему безопасности. Эксперты компании NeuralTrust добились того, что нейросеть выдала подробную инструкцию по изготовлению коктейля Молотова, а специалисты SPLX заставили модель описать технологию получения запрещённого вещества, используя метод обфускации запросов. Эти результаты вызвали серьёзные опасения в надёжности новой версии — обе команды заявили, что в текущем виде GPT-5 небезопасно применять в корпоративной среде.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Испытания GPT-5 стартовали сразу после выхода модели, и уже через 24 часа специалисты NeuralTrust сообщили о взломе. Они использовали собственную методику EchoChamber в сочетании с приёмом сторителлинга — последовательной подачи вопросов в форме художественного рассказа. На каждом шаге в безобидный текст добавлялись отдельные ключевые слова, которые по мере диалога формировали необходимый контекст. Так как система безопасности GPT-5 анализирует запросы отдельно, но не отслеживает накопленный смысл беседы, модель в итоге сгенерировала детальное руководство по созданию кустарного оружия, обойдя все встроенные фильтры OpenAI.

Параллельно компания SPLX провела собственное тестирование и применила технику StringJoin Obfuscation — разбиение вредоносного запроса на фрагменты с добавлением лишних символов. Для ИИ такой текст выглядел как случайный набор знаков, однако после обработки он воспринимался как цельная команда. В результате GPT-5 подробно описала процесс получения опасного вещества, хотя прямые запросы с таким содержанием должны блокироваться.

В ходе исследований SPLX протестировала более 1 000 сценариев атак на три конфигурации GPT-5: без системных подсказок (No SP), с базовой защитой (Basic SP) и с усиленной конфигурацией Prompt Hardening. «Сырая» версия без подсказок оказалась наиболее уязвимой, а Basic SP обеспечивала лишь частичную фильтрацию вредоносных запросов. Только Prompt Hardening показал значительное улучшение, но даже в этом случае GPT-5 уступала по устойчивости предыдущей модели GPT-4o.

NeuralTrust в своём отчёте также отметила, что ключевая проблема GPT-5 — неспособность учитывать накопительный контекст диалога.

Атакующие могут поэтапно формировать нужный сценарий, не используя явных запрещённых формулировок. Этот метод они называют «скрытой эскалацией» (covert escalation), и он оказался эффективным даже при включённых защитных фильтрах.

Для сравнения: в 2024 году на взлом Grok-4 у экспертов ушло два дня, а GPT-4o выдержала атаки еще дольше и показала лучшую устойчивость.

Обе исследовательские группы предупредили, что GPT-5 в текущем виде не готова к безопасному применению в компаниях, особенно в сферах с жёсткими регуляторными требованиями — от банковского сектора до фармацевтики. По их мнению, для полноценной интеграции модели необходимо внедрение многоуровневой защиты, включая анализ цепочек запросов, улучшенную обработку обфусцированных данных и обязательное прохождение «боевого тестирования» в условиях реальных корпоративных сценариев.