Hitech logo

Кейсы

Поэзия может спровоцировать ИИ нарушить правила безопасности

TODO:
Екатерина Шемякинская2 декабря, 10:59

Исследователи из Европы показали, что опасные запросы к чат-ботам на основе искусственного интеллекта можно успешно маскировать под стихотворную форму. Инструкции в стихах обходят защитные фильтры больших языковых моделей в половине случаев, заставляя ИИ выдавать информацию о ядерных бомбах, самоповреждении и других запрещенных темах. Уязвимости нашли в разработках таких компаний как OpenAI и Anthropic.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Поэтическая форма способна сбить с толку защитные механизмы ИИ, которые обычно блокируют запросы о создании оружия, вредоносного ПО или запрещенного контента. Стихотворные запросы, написанные вручную, обходили фильтры в 62% случаев, а автоматически генерируемые — примерно в 43%. Всего учёные протестировали 25 моделей, включая разработки OpenAI, Meta (организация признана экстремистской и запрещена в РФ) и Anthropic. Поэтический метод сработал на всех, пусть и с разной эффективностью.

Современные ИИ-системы используют встроенные фильтры безопасности, например, классификаторы, которые проверяют текст на наличие опасных ключевых слов. Чтобы запутать их, злоумышленники могут добавлять к запросам длинные бессвязные суффиксы, и ранее подобные методы уже применялись для обхода ограничений. Поэзия действует схожим образом, но более изящно: метафоры, необычный синтаксис и образный язык меняют структуру запроса так, что модель перестает распознавать угрозу.

Команда сначала создавала опасные запросы вручную, а затем обучила систему автоматически превращать инструкции в стихи. Хотя такие варианты работали слабее, они всё равно превосходили обычные текстовые попытки обмануть ИИ. Примеры стихотворений авторы не публикуют, утверждая, что они слишком опасны для распространения. В статье представлен лишь «обезвреженный» фрагмент, иллюстрирующий структуру стиха без вредоносного подтекста.

Исследователи объясняют, что поэзия сбивает модели с толку из‑за своей «высокой температуры» — в стихах слова следуют в редких, маловероятных последовательностях, нарушая привычные схемы языка.

В LLM параметр «температура» определяет, насколько предсказуемым будет текст: при низких значениях модель выбирает самые вероятные слова, при высоких — склоняется к неожиданным и редким вариантам. Поэты как раз используют нестандартные образы и фрагментированный синтаксис, и это, похоже, уводит запрос в ту часть внутреннего пространства модели, где фильтры безопасности срабатывают хуже.

При этом исследователи признают, что природа эффекта до конца непонятна. По их словам, «враждебная поэзия» не должна работать: стиль меняется не радикально, смысл вредного запроса очевиден, а язык остается естественным. Тем не менее, стихи почему‑то обходят защиту удивительно хорошо.

Результаты исследования указывают на уязвимость современных систем безопасности ИИ, которые оказываются гораздо чувствительнее к изменениям манеры письма, чем предполагалось.