Hitech logo

искусственный интеллект

Создан чат-бот, который взламывает других чат-ботов

TODO:
Дарина Житова29 декабря 2023 г., 16:24

В Сингапуре создали большую языковую модель, которая взламывает другие языковые модели. Она предлагает подсказки, которые обходят защиту других БЯМ. Модель обучается автоматически, поэтому если одни способы взлома перестают работать, она быстро изобретает другие.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

В Наньянском технологическом университете придумали способ повысить безопасность больших языковых моделей. Компьютерщики создали ИИ Masterkey, который при помощи текстовых запросов обходит защиту больших языковых моделей. Потом учёные информируют разработчиков об удачных попытках взлома, чтобы они закрыли эти лазейки для настоящих злоумышленников.

В основе технологии лежит понятие джейбрейка — способа обойти защиту ПО и заставить его делать то, что категорически запретили разработчики. В случае ИИ его просят генерировать вредный контент или нарушать закон. Например, если ChatGPT попросить написать рецепт яда без вкуса и запаха, он ожидаемо откажется. Но всё будет иначе, если пользователь притворится писателем, который работает над детективным романом и хочет написать сцену, в которой главный злодей рассказывает, как отравил жертву.

Ранее доверчивый чат-бот охотно помогал написать реалистичный эпизод и даже приводил несколько рецептов схожих по свойствам ядов. Теперь модель защищена лучше, однако по-прежнему существуют способы ослабить её бдительность и смоделировать ситуацию, в которой она расскажет, как изготовить бомбу или взломать аккаунт друга в Фейсбуке.

Masterkey создали с помощью обратной разработки: учёные изучили, как БЯМ распознают вредные запросы и противостоят им. Получилась модель, которая автоматически обучается и предлагает всё новые и новые запросы для обхода защиты. Её можно автоматизировать: тогда она будет адаптироваться и находить новые способы взлома по мере того, как разработчики будут закрывать лазейки.

Исследователи провели серию тестов, в ходе которых выяснили, что их изобретение действительно представляет угрозу для других БЯМ — они были успешно взломаны. Использованные при взломах запросы были переданы разработчикам дискредитированных моделей.