В Наньянском технологическом университете придумали способ повысить безопасность больших языковых моделей. Компьютерщики создали ИИ Masterkey, который при помощи текстовых запросов обходит защиту больших языковых моделей. Потом учёные информируют разработчиков об удачных попытках взлома, чтобы они закрыли эти лазейки для настоящих злоумышленников.
В основе технологии лежит понятие джейбрейка — способа обойти защиту ПО и заставить его делать то, что категорически запретили разработчики. В случае ИИ его просят генерировать вредный контент или нарушать закон. Например, если ChatGPT попросить написать рецепт яда без вкуса и запаха, он ожидаемо откажется. Но всё будет иначе, если пользователь притворится писателем, который работает над детективным романом и хочет написать сцену, в которой главный злодей рассказывает, как отравил жертву.
Ранее доверчивый чат-бот охотно помогал написать реалистичный эпизод и даже приводил несколько рецептов схожих по свойствам ядов. Теперь модель защищена лучше, однако по-прежнему существуют способы ослабить её бдительность и смоделировать ситуацию, в которой она расскажет, как изготовить бомбу или взломать аккаунт друга в Фейсбуке.
Masterkey создали с помощью обратной разработки: учёные изучили, как БЯМ распознают вредные запросы и противостоят им. Получилась модель, которая автоматически обучается и предлагает всё новые и новые запросы для обхода защиты. Её можно автоматизировать: тогда она будет адаптироваться и находить новые способы взлома по мере того, как разработчики будут закрывать лазейки.
Исследователи провели серию тестов, в ходе которых выяснили, что их изобретение действительно представляет угрозу для других БЯМ — они были успешно взломаны. Использованные при взломах запросы были переданы разработчикам дискредитированных моделей.