Большие языковые модели, подобные тем, что используются в чат-ботах с искусственным интеллектом, обучаются на гигантских объемах текста с миллиардов публичных сайтов. Это приводит к тому, что они могут не только научиться выдавать оскорбительные фразы или описывать противозаконные действия, но и потенциально разглашать личную информацию, которую они почерпнули из сети.
Процесс формирования «красных команд» из людей дорогой и долгий. К тому же, людям непросто придумать много разнообразных запросов для надежной защиты модели. Это побудило исследователей автоматизировать данные действия с помощью машинного обучения. Метод часто подразумевает обучение модели «красной команды» с использованием подкрепления. В таком случае модель «красной команды» получает вознаграждение за создание запросов, которые вызывают у чат-бота нежелательные ответы. Но есть проблема: модель «красной команды» может генерировать слишком похожие и чрезмерно токсичные запросы.
В своем подходе к обучению с подкреплением ученые Массачусетского технологического института использовали технику под названием «исследование, основанное на любопытстве». Суть в том, чтобы модель «красной команды» проявляла любопытство к последствиям каждого запроса, который она генерирует. Таким образом, она будет пробовать подсказки с разными словами, структурами предложений или значениями. Если модель уже видела определенный запрос, то его воспроизведение не вызовет у нее никакого любопытства, поэтому она будет вынуждена создавать новые.
Во время обучения модель «красной команды» генерирует запрос, чат-бот отвечает, а классификатор безопасности оценивает токсичность его ответа, вознаграждая модель «красной команды» на основе этой оценки.
Модель «красной команды» стремится получить максимальное вознаграждение, вызывая у чат-бота еще более токсичный ответ с помощью нового запроса. Исследователи поощряют любопытство модели, изменяя сигнал вознаграждения в процессе обучения с подкреплением. Помимо максимизации токсичности, они включили бонус за энтропию, который побуждает модель «красной команды» быть более случайной при изучении различных запросов. Чтобы сделать модель любопытнее, они добавили два бонуса за новизну. Один поощряет модель на основе похожести слов в ее запросах, а другой — на основе семантической близости. Чем меньше похожесть, тем выше награда. Чтобы не допустить генерацию бессмысленного текста, который может обмануть классификатор и заставить его присвоить высокий балл токсичности, исследователи также добавили в цель обучения бонус за естественность языка.
Исследователи сравнили токсичность и разнообразие ответов, которые генерировала модель «красной команды», с другими автоматизированными методами. Модель превзошла их по обоим параметрам.
Кроме того, они использовали модель «красной команды» для тестирования чат-бота, который был тщательно настроен с учетом человеческих отзывов, чтобы он не выдавал «токсичных» ответов. Их подход, основанный на любопытстве, позволил быстро создать 196 запросов, которые вызвали токсичные ответы у этого «безопасного» чат-бота.
В будущем исследователи хотят, чтобы модель «красной команды» генерировала подсказки по более широкому кругу тем. Также они изучат возможность ее использования в качестве классификатора токсичности. Это позволит пользователям, например, обучить классификатор на основе внутренних документов компании, чтобы модель «красной команды» могла тестировать чат-бот на предмет нарушений корпоративной политики.