Исследовательская группа разработала задачи для измерения качественных аспектов больших языковых моделей (LLM) ChatGPT GPT-4 и GPT-3.5 в период с марта по июнь 2023 года. Задачи делятся на четыре категории, измеряющих широкий спектр навыков ИИ, но относительно простых для оценки производительности:
В решении математических задач измерялась точность, многословность (в символах) и совпадение ответов GPT-4 и GPT-3.5 в период с марта по июнь 2023 года. В целом, наблюдались значительные колебания в эффективности обеих ИИ-моделей. GPT-4 в марте следовала инструкциям по цепочке мыслей для получения правильного ответа, но в июне их проигнорировала, выдав неверный ответ. GPT-3.5 всегда следовала цепочке мыслей, но настаивала на генерации неправильного ответа в марте. Эту проблему устранили к июню.
С марта по июнь GPT-4 ответила на меньшее количество деликатных вопросов, в то время как GPT-3.5 отвечала чуть больше. В марте GPT-4 и GPT-3.5 были многословны и в случае отказа отвечать на запрос подробно объясняли причины. В июне они просто выдавали пользователю извинения.
Обе модели продемонстрировали снижение эффективности генерации кода. Общая тенденция показывает, что для GPT-4 процент непосредственно исполняемых генераций сократился с 52% в марте до 10% в июне. Падение наблюдалось и у GPT-3.5 — с 22% до 2%. Многословность GPT-4, измеряемая количеством символов в генерациях, увеличилась на 20%. В марте обе ИИ-модели следовали инструкции пользователя («только код») и таким образом генерировали непосредственно исполняемый код. Однако в июне они добавили лишние тройные кавычки до и после фрагмента кода, делая его нерабочим.
По части визуального мышления и GPT-4, и GPT-3.5 показали себя на 2% лучше в период с марта по июнь, а точность их ответов возросла. Вместе с тем, объём информации, которую они генерировали, остался примерно на том же уровне. 90% визуальных задач, которые они решали, не изменились за этот период. При анализе конкретного вопроса и ответов на него можно заметить, что, несмотря на общий прогресс, GPT-4 в июне показала себя хуже, чем в марте. Если в марте эта модель генерировала правильный ответ, то в июне выдавала ошибку.
Данные исследования показали, что одна и та же языковая модель отвечает на запросы совершенно по-разному с течением времени. Новая версия GPT-4 по сравнению с мартовской версией хуже проявляла себя в трех категориях тестирования — решении математических задач, деликатных вопросах и генерации кода. Небольшое преимущество перед более ранней версией было только в визуальном мышлении.
OpenAI открыла доступ к API языковой модели GPT-4 около двух недель назад и объявила её своей самой продвинутой и функциональной ИИ-моделью. Поэтому общественность была разочарована тем, что новое исследование обнаружило снижение качества ответов GPT-4 даже на относительно простые запросы. Ученые намерены продолжать оценку версий GPT в более долгосрочном исследовании. Возможно, самой OpenAI следует регулярно проводить и публиковать собственные исследования качества работы ИИ-моделей для клиентов. Если компания не станет более открытой в этом вопросе, может потребоваться вмешательство бизнеса или государственных организаций для контроля некоторых базовых показателей качества ИИ.