Создатели индекса рассмотрели больше 10 больших языковых моделей с открытым и закрытым кодом, включая Llama от Meta, и оценили производительность каждой из них при выполнении различных задач, чтобы увидеть, какая БЯМ испытывает меньше всего галлюцинаций.
Галлюцинации в контексте языковых моделей относятся к ситуациям, когда модель генерирует явно ложную или непроверенную информацию. Это может происходить по разным причинам, включая ограничения данных, на которых обучали БЯМ, ошибки в алгоритмах обработки языка или неправильное понимание контекста запроса.
Иногда модель может неверно интерпретировать запрос пользователя и, как результат, дать некорректный или неуместный ответ. Она также может «изобрести» факты или события, которых на самом деле не происходило. Это особенно рискованно в ситуациях, когда от точности ответа зависят важные решения. Поскольку языковые модели обучаются на больших объемах текстовых данных, они могут воспроизводить неточности или предвзятость, содержащиеся в них.
Особенно опасны галлюцинации БЯМ, связанные с медициной, юридическими советами, финансами и инвестициями, а также образованием. В последнее время преподаватели часто ловят невнимательных учеников с работами, содержащими неверную информацию от «галлюцинирующей» нейросети.
Команда Galileo предложила нейросетям искать информацию, аннотировать ее, отвечать на разные вопросы по тексту и создавать большие материалы, такие как отчеты и статьи. Все БЯМ вели себя по-разному при выполнении разных задач, но OpenAI оставалась на первом месте, демонстрируя стабильную производительность во всех сценариях.
Индекс поможет предприятиям справиться с проблемой галлюцинаций, которая удерживает многие команды разработчиков от масштабного развертывания больших языковых моделей в таких важных секторах, как здравоохранение.