Hitech logo

Кейсы

Новые модели OpenAI галлюцинируют чаще — каждый третий их ответ неверный

TODO:
Екатерина ШемякинскаяВчера, 11:54 AM

«Рассуждающие» модели o3 и o4-mini отлично решают задачи в области программирования и математики, но при этом галлюцинируют чаще, чем их предшественники. Согласно внутренним тестам OpenAI, частота ошибок у этих моделей вдвое выше. Одним из возможных объяснений компания называет их склонность делать больше утверждений — это увеличивает как число точных ответов, так и количество ошибочных выводов.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Галлюцинации остаются одной из сложнейших проблем в сфере искусственного интеллекта. Обычно каждая новая ИИ-модель справляется немного лучше — выдает меньше недостоверной информации, чем предыдущие версии. Но, похоже, это не относится к o3 и o4-mini. Внутренние тесты OpenAI показали, что они галлюцинируют чаще, чем предыдущие «рассуждающие» модели компании (o1, o1-mini и o3-mini), а также чем их традиционные инструменты, например, GPT-4o.

При этом разработчики ChatGPT сами не до конца понимают, в чем тут дело. В техническом отчете о моделях o3 и o4-mini OpenAI признает необходимость дальнейших исследований, чтобы понять, почему улучшение аналитических способностей нейросети приводит к учащению случаев галлюцинаций. Хотя новые модели показывают лучшие результаты в программировании и математике, их склонность делать больше утверждений в целом приводит к парадоксальному эффекту: наряду с увеличением числа точных ответов растёт и количество ошибочных выводов.

Модель o3 галлюцинировала в ответ на 33% вопросов теста PersonQA — внутреннего бенчмарка компании для оценки точности знаний модели о людях. Этот показатель примерно вдвое превышает уровень галлюцинаций предыдущих «рассуждающих» моделей o1 и o3-mini, где частота ошибок составила 16% и 14,8% соответственно. Модель o4-mini показала ещё более тревожные результаты на PersonQA — выдавала ошибочные ответы в 48% случаев.

Сторонние испытания некоммерческой исследовательской лаборатории Transluce также выявили склонность модели o3 выдумывать действия, якобы совершенные для получения ответов. В одном из случаев o3 утверждала, что запускала код на MacBook Pro 2021 года «вне платформы ChatGPT», а затем вставила результаты в ответ. Хотя у o3 действительно есть доступ к некоторым инструментам, подобные действия она выполнить не способна. Кроме того, модель часто генерирует неработающие веб-ссылки, выдавая их за достоверные.

Галлюцинации могут способствовать генерации нестандартных идей и творческому «мышлению», однако они же делают модели малопригодными для сфер, где критически важна точность данных. Например, юридические фирмы вряд ли будут довольны ИИ, допускающим фактические ошибки в договорах. Один из перспективных методов повышения точности — интеграция веб-поиска. Например, GPT-4o с этой функцией достигает точности 90% в тесте SimpleQA.

В последний год отрасль переключилась на модели с развитым логическим мышлением, поскольку традиционные методы улучшения ИИ перестали давать значимый прогресс. Такие инструменты отлично справляются с разными задачами без необходимости в колоссальных вычислительных ресурсах и гигантских обучающих выборках. Однако проблему с галлюцинациями разработчикам еще предстоит решить.