Создан чат-бот, который взламывает других чат-ботов

искусственный интеллект

Дарина Житова29 декабря 2023 г., 16:24

Дарина Житова29 декабря 2023 г., 16:24

В Сингапуре создали большую языковую модель, которая взламывает другие языковые модели. Она предлагает подсказки, которые обходят защиту других БЯМ. Модель обучается автоматически, поэтому если одни способы взлома перестают работать, она быстро изобретает другие.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

В Наньянском технологическом университете придумали способ повысить безопасность больших языковых моделей. Компьютерщики создали ИИ Masterkey, который при помощи текстовых запросов обходит защиту больших языковых моделей. Потом учёные информируют разработчиков об удачных попытках взлома, чтобы они закрыли эти лазейки для настоящих злоумышленников.

Конгрессу США показали видео как НЛО «поглотил» удар ракеты Hellfire

В основе технологии лежит понятие джейбрейка — способа обойти защиту ПО и заставить его делать то, что категорически запретили разработчики. В случае ИИ его просят генерировать вредный контент или нарушать закон. Например, если ChatGPT попросить написать рецепт яда без вкуса и запаха, он ожидаемо откажется. Но всё будет иначе, если пользователь притворится писателем, который работает над детективным романом и хочет написать сцену, в которой главный злодей рассказывает, как отравил жертву.

Ранее доверчивый чат-бот охотно помогал написать реалистичный эпизод и даже приводил несколько рецептов схожих по свойствам ядов. Теперь модель защищена лучше, однако по-прежнему существуют способы ослабить её бдительность и смоделировать ситуацию, в которой она расскажет, как изготовить бомбу или взломать аккаунт друга в Фейсбуке.

Masterkey создали с помощью обратной разработки: учёные изучили, как БЯМ распознают вредные запросы и противостоят им. Получилась модель, которая автоматически обучается и предлагает всё новые и новые запросы для обхода защиты. Её можно автоматизировать: тогда она будет адаптироваться и находить новые способы взлома по мере того, как разработчики будут закрывать лазейки.

Исследователи провели серию тестов, в ходе которых выяснили, что их изобретение действительно представляет угрозу для других БЯМ — они были успешно взломаны. Использованные при взломах запросы были переданы разработчикам дискредитированных моделей.

Также по теме

Тренды

Япония массово переводит рабочие процессы в дополненную реальность

Тренды

Telegram подал в ЕС антимонопольную жалобу на App Store

Тренды

В России проведут большой ликбез по теме сквозной аналитики

Тренды

Biohax выпустит элитный имплант для торговли золотом

Новости СМИ2