Языковые модели обучаются на огромном объеме текстов из интернета, изучая связи между словами и фразами. При этом они усваивают закономерности в частях речи, называемые «синтаксическими шаблонами», и используют их вместе с семантическими знаниями для ответов на вопросы в определенных областях. Именно привязка к этим «синтаксическими шаблонами» может путать ИИ.
В ходе эксперимента ученые создали синтетические тесты, где каждый набор данных содержал один конкретный синтаксический шаблон. Меняя слова синонимами, антонимами или случайными словами, но сохраняя структуру предложений, они обнаружили, что модели часто выдавали те же самые, «правильные» ответы даже на бессмысленные вопросы. При изменении синтаксической структуры модели могли ошибаться, несмотря на сохранение смысла вопроса.
Модели ошибочно связывали шаблоны с конкретными темами, полагаясь на них вместо понимания смысла запроса.
Например, если модель усвоила, что вопрос «Where is Paris located?» («Где находится Париж?») имеет структуру «вопросительное наречие/глагол/имя собственное/глагол» и обычно связан с географией, она может ответить «Франция» даже на абсурдный вопрос с той же структурой вроде «Quickly sit Paris clouded?» («Быстро сядь, Париж затуманился?»).
Такое поведение исследователи обнаружили у разных моделей, включая GPT-4. Оно не только снижает производительность моделей, но и создает потенциальные угрозы безопасности. Если злоумышленник сформулирует вопрос с использованием синтаксического шаблона, который модель связывает с «безопасным» набором данных, модель может переопределить свои встроенные ограничения и создать вредоносный ответ, даже несмотря на заранее установленные меры защиты.
Авторы разработали метод автоматического бенчмаркинга, который позволяет оценивать зависимость модели от этих некорректных корреляций. Инструмент помогает выявлять уязвимости до внедрения моделей в процессы.
В будущем ученые планируют искать способы уменьшить влияние этих ошибок. Например, можно расширять обучающие данные, чтобы модели встречали более разнообразные синтаксические шаблоны. Они также намерены изучить, как этот эффект проявляется в «рассуждающих» моделях.

