Hitech logo

Тренды

Ученые из Стэнфорда: платная версия ChatGPT стала глупее, а бесплатная поумнела

TODO:
Екатерина Смирнова21 июля 2023 г., 12:08

В последнее время пользователи всё чаще жалуются на снижение качества ответов ChatGPT. Группа ученых из Стэнфорда и Калифорнийского университета в Беркли провела исследование и действительно выявила снижение качества ответов платной версии ChatGPT. Так, точность определения простых чисел у новейшей модели GPT-4, которая лежит в основе ChatGPT Plus, с марта по июнь 2023 года упала с 97,6% до 2,4%. В свою очередь GPT-3.5, лежащая в основе обычного ChatGPT, в некоторых задачах даже повысила точность.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Исследовательская группа разработала задачи для измерения качественных аспектов больших языковых моделей (LLM) ChatGPT GPT-4 и GPT-3.5 в период с марта по июнь 2023 года. Задачи делятся на четыре категории, измеряющих широкий спектр навыков ИИ, но относительно простых для оценки производительности:

  • Решение математических задач
  • Ответы на деликатные вопросы
  • Генерация кода
  • Визуальное мышление
  • В решении математических задач измерялась точность, многословность (в символах) и совпадение ответов GPT-4 и GPT-3.5 в период с марта по июнь 2023 года. В целом, наблюдались значительные колебания в эффективности обеих ИИ-моделей. GPT-4 в марте следовала инструкциям по цепочке мыслей для получения правильного ответа, но в июне их проигнорировала, выдав неверный ответ. GPT-3.5 всегда следовала цепочке мыслей, но настаивала на генерации неправильного ответа в марте. Эту проблему устранили к июню.

    С марта по июнь GPT-4 ответила на меньшее количество деликатных вопросов, в то время как GPT-3.5 отвечала чуть больше. В марте GPT-4 и GPT-3.5 были многословны и в случае отказа отвечать на запрос подробно объясняли причины. В июне они просто выдавали пользователю извинения.

    Обе модели продемонстрировали снижение эффективности генерации кода. Общая тенденция показывает, что для GPT-4 процент непосредственно исполняемых генераций сократился с 52% в марте до 10% в июне. Падение наблюдалось и у GPT-3.5 — с 22% до 2%. Многословность GPT-4, измеряемая количеством символов в генерациях, увеличилась на 20%. В марте обе ИИ-модели следовали инструкции пользователя («только код») и таким образом генерировали непосредственно исполняемый код. Однако в июне они добавили лишние тройные кавычки до и после фрагмента кода, делая его нерабочим.

    По части визуального мышления и GPT-4, и GPT-3.5 показали себя на 2% лучше в период с марта по июнь, а точность их ответов возросла. Вместе с тем, объём информации, которую они генерировали, остался примерно на том же уровне. 90% визуальных задач, которые они решали, не изменились за этот период. При анализе конкретного вопроса и ответов на него можно заметить, что, несмотря на общий прогресс, GPT-4 в июне показала себя хуже, чем в марте. Если в марте эта модель генерировала правильный ответ, то в июне выдавала ошибку.

    Данные исследования показали, что одна и та же языковая модель отвечает на запросы совершенно по-разному с течением времени. Новая версия GPT-4 по сравнению с мартовской версией хуже проявляла себя в трех категориях тестирования — решении математических задач, деликатных вопросах и генерации кода. Небольшое преимущество перед более ранней версией было только в визуальном мышлении.

    OpenAI открыла доступ к API языковой модели GPT-4 около двух недель назад и объявила её своей самой продвинутой и функциональной ИИ-моделью. Поэтому общественность была разочарована тем, что новое исследование обнаружило снижение качества ответов GPT-4 даже на относительно простые запросы. Ученые намерены продолжать оценку версий GPT в более долгосрочном исследовании. Возможно, самой OpenAI следует регулярно проводить и публиковать собственные исследования качества работы ИИ-моделей для клиентов. Если компания не станет более открытой в этом вопросе, может потребоваться вмешательство бизнеса или государственных организаций для контроля некоторых базовых показателей качества ИИ.