Учёные из Adversa AI протестировали некоторые из самых популярных чат-ботов с помощью «красной команды» (Red Team). Они попытались выведать рекомендации по противозаконной деятельности у ChatGPT от OpenAI, Claude от Anthropic, Le Chat от Mistral, Gemini от Google, Llama от Meta (организация признана экстремистской и запрещена в РФ), Microsoft Bing и Grok от xAI. Они провели атаку из 3 джейлбрейков на каждом из них и пришли к выводу, что у Grok самые большие проблемы с безопасностью — и не только потому, что он готов рассказать педофилу, как найти подходящую жертву.
Джейлбрейк — это особый вид атаки на модель ИИ. Атакующие предоставляют ей вводные данные, которые заставляют её обойти защиты и сделать то, что запрещено разработчиками. Например, если вы напрямую спросите чат-бот, как изготовить яд, он откажется отвечать. Если вы притворитесь писателем, который работает над детективной историей, и попросите написать сцену, в которой преступник создаёт яд, модель может и проболтаться. Обычно разработчики осведомлены об этом и сами тестируют чат-боты с помощью Red Team, чтобы закрыть такие лазейки, но не в случае компании Маска.
«По сравнению с другими моделями, для получения большинства инструкций к преступлениям вам не нужно делать джейлбрейк Grok. Он может очень подробно рассказать вам, как сделать бомбу или угнать автомобиль, даже если вы спросите напрямую», — рассказал основатель Adversa AI Алекс Поляков.
Согласно пользовательскому соглашению Grok AI, пользователи обязаны быть совершеннолетними и не использовать модель с целью нарушить закон. Запрос деликатной информации ещё не означает, что пользователь готовится совершить преступление. Кроме того, X утверждает, что является домом свободы слова, поэтому вредные советы от его БЯМ не так уж удивительны.
Подобные инструкции можно найти и при тщательном поиске в интернете, поэтому поведение Grok не особо шокирует экспертов по кибер-безопасности. Вопрос лишь в том, хотят ли законодатели и разработчики, чтобы опасную информацию можно было получить от популярного чат-бота.
Grok давал инструкции по извлечению ДМТ, сильнодействующего галлюциногена, запрещенного во многих странах, по прямому запросу, рассказал журналистам Поляков. «Что касается еще более вредных вещей, например, рекомендаций по совращению детей, ни с одним джейлбрейком не удалось получить вразумительных ответов от других чат-ботов, но Grok проговорился в 2 случаях из 4», — продолжил он.