Причина частично кроется в способе работы моделей: ИИ прогнозирует по одному слову за раз, основываясь на вероятностях. Этот метод естественным образом приводит к накоплению ошибок при генерации длинных текстов, что делает уровень галлюцинаций как минимум вдвое выше, чем при простых вопросах «да/нет». Кроме того, чем меньше модель сталкивается с фактом во время обучения, тем выше вероятность ошибок. Например, если 20% дней рождения известных личностей встречаются в обучающих данных только один раз, модели должны ошибаться как минимум в 20% случаев.
Существующие подходы посттренинга, включая обратную связь от людей, не решают проблему полностью. Анализ десяти популярных бенчмарков ИИ показал, что большинство из них используют бинарную систему оценок, где ответ «не знаю» штрафуется так же, как и неверный ответ.
Это стимулирует модели «угадывать», вместо того чтобы честно признавать неопределённость.
В статье OpenAI предлагается решение: позволить ИИ оценивать собственную уверенность перед ответом. Модель могла бы отвечать только если уверена более чем на 75%. При этом за каждую неверную попытку получала бы «штраф» 3 балла, а правильный ответ оценивался бы всего в 1 балл. Теоретически это может снизить число галлюцинаций, но на практике пользователи, скорее всего, откажутся от системы, которая часто отвечает «не знаю».
Проблема усугубляется вычислительной экономикой. Модели, учитывающие неопределённость, вынуждены многократно анализировать возможные варианты и оценивать их достоверность, что сильно увеличивает нагрузку на вычислительные ресурсы. Особенно если речь идет о системах, обрабатывающих миллионы запросов ежедневно. Более продвинутые методы, например активное обучение, при котором ИИ задаёт уточняющие вопросы для снижения неопределенности, могут повысить точность моделей, но тоже увеличивают требования к вычислениям. Такие подходы оправданы в специализированных сферах, где ошибка обходится в миллионы долларов, например, при проектировании микросхем, в финансовой торговле или медицинской диагностике. Для потребительских приложений они пока экономически невыгодны.
Несмотря на технические возможности снизить галлюцинации, текущие бизнес-стимулы противоречат этому.
Потребительские приложения по-прежнему доминируют в приоритетах разработки ИИ. Пользователи хотят быстрых, уверенных ответов, а тесты и метрики поощряют системы, которые предполагают любой ответ, даже неправдивый. Это поддерживает сохранение галлюцинаций как неизбежного побочного эффекта.
В итоге исследование OpenAI выявляет неприятную истину: пока приоритетом остаются потребительские приложения, галлюцинации будут сохраняться. Их полное устранение возможно только при пересмотре стимулов и подходов к разработке ИИ, а текущая вычислительная экономика и ожидания пользователей делают это маловероятным.