Hitech logo

Искусственный интеллект

В Meta нашли способ улучшить мыслительные способности БЯМ

TODO:
Дарина Житова3 декабря 2023 г., 15:32

Компания Meta (признана экстремистской и запрещена в РФ) разработала новую методику, которая помогает большим языковым моделям (БЯМ) совершать меньше ошибок в ответах на вопросы пользователей. Она основана на достижениях психологии и заключается в том, что нейросеть убирает из запроса ненужную информацию. S2A особенно эффективна в задачах, связанных с генерацией длинных текстов, решением текстовых задач и ответами на вопросы.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Точность ответов и рассуждений БЯМ — давняя боль разработчиков. Некоторые подсказки пользователей помогают повысить их эффективность, но модель может дать сбой, если запрос будет содержать нерелевантную или поданную уверенно информацию. Например, если вы напишите в вопросе собственные рассуждения, чат-бот скорее всего подтвердит их, а не напишет, как дела обстоят на самом деле.

Здесь на помощь приходит «System 2 Attention», она же S2A, которая превосходит ранее известные методики. Она особенно хорошо проявила себя в ответах на вопросы, решениях задач с текстовым условием и генерации длинных текстов. Всё потому, что с помощью неё БЯМ учатся отсеивать предвзятую, субъективную или просто не имеющую значения информацию. Точность и объективность ответов при её использовании растёт, а языковые модели не пытаются «польстить» пользователю.

Механизм работы S2A включает в себя два этапа. На первом она изменяет первоначальный запрос, представленный БЯМ, и удаляет несущественные или потенциально вводящие в заблуждение части. Затем этот уточнённый запрос подаётся в основную БЯМ для генерации выводов. Теперь ответы модели основываются на наиболее релевантных и важных аспектах входных данных, тем самым повышая качество и надежность выхода.

Более того, техника S2A решает ключевую проблему в работе языковых моделей-трансформеров (вид архитектуры, при котором модели не обрабатывают текст по порядку). Традиционные механизмы мягкого внимания в них склонны включать в свои латентные представления несущественную информацию из запроса, что может негативно влиять на генерацию следующих токенов в последовательности. Отсеивая ненужное, S2A помогает улучшить производительность и точность БЯМ.