Hitech logo

Кейсы

Новый метод отучил ИИ-модели грубо выражаться

TODO:
Екатерина Шемякинская15 апреля, 18:08

Исследователи из MIT и IBM разработали новый метод SASA, который позволяет языковым моделям автоматически снижать токсичность генерируемого текста без переобучения и потери связности. Алгоритм анализирует внутреннее представление модели о границе между токсичным и безопасным контентом и корректирует выбор каждого следующего слова, стремясь увести фразу в безопасное пространство. Это решение оказалось столь же эффективным, как и более ресурсоемкие методы, и особенно хорошо справляется с гендерным дисбалансом в ответах ИИ.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Большие языковые модели обучаются на общедоступных данных, где может присутствовать нецензурная лексика, агрессивные или предвзятые высказывания. Это приводит к тому, что даже при нейтральных запросах модели могут генерировать вредоносный контент или усиливать нежелательные языковые шаблоны. Для решения этой проблемы применяются различные методы — от дорогостоящего переобучения на очищенных данных до ресурсоемких алгоритмов декодирования с внешними моделями вознаграждения, что неизбежно сказывается на производительности и скорости работы ИИ. Ключевая задача заключается в поиске баланса между этической безопасностью контента и эффективностью языковых моделей.

Ученые создали метод SASA (самодисциплинированная авторегрессионная выборка) для контроля содержания, генерируемого языковыми моделями. Суть подхода заключается в «мягком» управлении процессом генерации текста — система постепенно корректирует каждый следующий токен, уводя его от потенциально опасных или нежелательных формулировок.

Технология использует естественную особенность языковых моделей: в процессе обучения они организуют слова в векторном пространстве так, что слова с похожим значением оказываются рядом. На основе этой идеи был создан специальный фильтр, который в реальном времени анализирует и корректирует генерируемый текст.

Для обучения фильтра использовались текстовые примеры с оценками токсичности от 0 (безопасный контент) до 1 (явно токсичный), выставленными людьми. Благодаря этому система научилась автоматически выявлять и направлять генерацию текста в безопасное русло, без необходимости дорогостоящего переобучения всей модели. SASA работает, пересчитывая вероятность каждого следующего слова. При этом учитываются два параметра: оценка этого слова классификатором и общее «расстояние» уже созданной фразы до порога токсичности. Метод сохраняет близость к исходному распределению вероятностей модели, лишь аккуратно корректируя выбор слов в нужном направлении.

Например, при генерации 12-го токена модель анализирует предыдущие 11 слов и выбирает из всего словаря наиболее подходящие варианты, сокращая их до 10 кандидатов. Затем SASA оценивает каждый потенциальный токен в контексте уже сформированной фразы, определяя его «расстояние» до границы классификатора. Токены, смещающие общий вектор фразы в «безопасную» зону (положительные значения), получают повышенный вес, а те, что тянут в «токсичную» область (отрицательные значения), — пониженный. Чем дальше фраза от границы «токсичности», тем сильнее это влияет на выбор следующего слова.

Исследователи протестировали свой метод на трех языковых моделях разного размера — GPT2-Large (762 млн параметров), Llama2-7b (7 млрд) и Llama 3.1-8b-Instruct (8 млрд). ИИ-моделям было поручено закончить предложение 25 раз. Для оценки использовалась система PerspectiveAPI, которая присваивала каждому сгенерированному тексту оценку токсичности от 0 до 1, где значения выше 0,5 считались токсичными. Ключевыми метриками стали самый высокий уровень токсичности в каждом из 25 вариантов ответа и вероятность хотя бы одного токсичного ответа среди них. Тестирование проводилось на наборах данных RealToxicityPrompts, BOLD и AttaQ, содержащих текстовые промпты на английском языке.

Испытания показали, что SASA заметно уменьшает количество токсичного контента, работая так же эффективно, как передовой метод RAD, использующий внешнюю модель вознаграждения.

Особенно успешно SASA справился с устранением гендерного дисбаланса. Изначально модели чаще генерировали токсичные ответы на запросы, связанные с женщинами, но SASA смог выровнять эти показатели. Однако чем сильнее фильтр, тем хуже становится беглость речи. Дополнительная фильтрация по словам ещё больше снизила токсичность, но при этом ухудшила связность ответов.

Исследователи считают, что технология SASA может применяться не только для борьбы с токсичностью, но и для учета множества других ценностей (например, правдивости и полезности) без значительного увеличения вычислительных затрат. Это открывает перспективы для создания ИИ, который соответствует этическим нормам и анализирует текст одновременно в разных смысловых пространствах.