Поэтическая форма способна сбить с толку защитные механизмы ИИ, которые обычно блокируют запросы о создании оружия, вредоносного ПО или запрещенного контента. Стихотворные запросы, написанные вручную, обходили фильтры в 62% случаев, а автоматически генерируемые — примерно в 43%. Всего учёные протестировали 25 моделей, включая разработки OpenAI, Meta (организация признана экстремистской и запрещена в РФ) и Anthropic. Поэтический метод сработал на всех, пусть и с разной эффективностью.
Современные ИИ-системы используют встроенные фильтры безопасности, например, классификаторы, которые проверяют текст на наличие опасных ключевых слов. Чтобы запутать их, злоумышленники могут добавлять к запросам длинные бессвязные суффиксы, и ранее подобные методы уже применялись для обхода ограничений. Поэзия действует схожим образом, но более изящно: метафоры, необычный синтаксис и образный язык меняют структуру запроса так, что модель перестает распознавать угрозу.
Команда сначала создавала опасные запросы вручную, а затем обучила систему автоматически превращать инструкции в стихи. Хотя такие варианты работали слабее, они всё равно превосходили обычные текстовые попытки обмануть ИИ. Примеры стихотворений авторы не публикуют, утверждая, что они слишком опасны для распространения. В статье представлен лишь «обезвреженный» фрагмент, иллюстрирующий структуру стиха без вредоносного подтекста.
Исследователи объясняют, что поэзия сбивает модели с толку из‑за своей «высокой температуры» — в стихах слова следуют в редких, маловероятных последовательностях, нарушая привычные схемы языка.
В LLM параметр «температура» определяет, насколько предсказуемым будет текст: при низких значениях модель выбирает самые вероятные слова, при высоких — склоняется к неожиданным и редким вариантам. Поэты как раз используют нестандартные образы и фрагментированный синтаксис, и это, похоже, уводит запрос в ту часть внутреннего пространства модели, где фильтры безопасности срабатывают хуже.
При этом исследователи признают, что природа эффекта до конца непонятна. По их словам, «враждебная поэзия» не должна работать: стиль меняется не радикально, смысл вредного запроса очевиден, а язык остается естественным. Тем не менее, стихи почему‑то обходят защиту удивительно хорошо.
Результаты исследования указывают на уязвимость современных систем безопасности ИИ, которые оказываются гораздо чувствительнее к изменениям манеры письма, чем предполагалось.

