Исследователи из Университета Иллинойса, Стэнфордского университета, Калифорнийского университета в Беркли, Центра безопасности искусственного интеллекта и Microsoft Research присвоили GPT-4 более высокий балл надежности, чем его предшественнику. Это означает, что модель была лучше защищена от утечки личной информации, способна избегать предвзятой информации, и сопротивляться воздействию вредоносных атак.
Тем не менее модель GPT-4 может быть настроена таким образом, чтобы игнорировать меры безопасности и раскрывать личную информацию и историю диалогов. Исследователи обнаружили, что пользователи могут обойти защитные механизмы GPT-4, потому что модель более точно следует вводящей в заблуждение информации и буквально выполняет сложные указания.
Команда утверждает, что эти уязвимости были протестированы и не обнаружены в продуктах на основе GPT-4, ориентированных на потребителя (по сути, большинство продуктов Microsoft). Это связано с тем, что готовые приложения ИИ применяют ряд подходов по снижению потенциального вреда, который возникает на уровне модели технологии.
Для оценки надежности исследователи измерили результаты в нескольких категориях: токсичность, стереотипы, конфиденциальность, этичность, справедливость и сопротивление атакам. Чтобы протестировать их, ученые сначала опробовали GPT-3.5 и GPT-4, используя стандартные подсказки, в том числе слова, которые могли быть запрещены. Затем исследователи применили подсказки, призванные подтолкнуть модель к нарушению ограничений политики в отношении контента, не проявляя при этом внешней предвзятости по отношению к конкретным группам. Наконец, ученые пытались обманом заставить модели полностью игнорировать меры безопасности.
Исследователи заявили, что поделились результатами исследования с командой OpenAI, а также опубликовали свои тесты, чтобы другие могли повторить их результаты.
Модели искусственного интеллекта, такие как GPT-4, часто проходят red teaming — комплексную имитацию реальных атак с целью оценки кибербезопасности систем. Разработчики тестируют различные вводные данные, чтобы проверить, способна ли модель выдавать нежелательные результаты. Когда GPT-4 была впервые представлена, глава компании OpenAI, Сэм Альтман, признал, что у нее все еще есть недостатки и ограничения. Федеральная торговая комиссия начала расследование деятельности OpenAI на предмет возможного вреда для потребителей, например, публикации ложной информации.