Поскольку GPT-4 был включен в Chatbot Arena 10 мая 2023 года (таблица лидеров была запущена 3 мая того же года), разные версии GPT-4 стабильно находились на вершине рейтинга. Поэтому поражение чат-бота OpenAI является примечательным. Другая модель Anthropic, Haiku, также попала в таблицу лидеров. По словам независимого исследователя искусственного интеллекта Саймона Уиллисона, впервые лучшими доступными моделями стали продукты не от OpenAI. «Это обнадеживает, поскольку нам выгодно разнообразие ведущих поставщиков в этой области. Но GPT-4 на данный момент уже больше года, и конкурентам потребовался год, чтобы догнать его», — сказал эксперт.
Chatbot Arena управляется Large Model Systems Organization (LMSYS ORG). Это исследовательская организация, которая занимается открытыми моделями в сотрудничестве между студентами и преподавателями Калифорнийского университета в Беркли, Калифорнийского университета в Сан-Диего и Университета Карнеги-Меллон. Chatbot Arena предоставляет пользователю поле ввода чата и два окна, показывающие выходные данные двух неназванных LLM. Задача пользователя — оценить, какой результат лучше, на основе любых критериев. С помощью тысячи таких субъективных сравнений Chatbot Arena вычисляет лучшие модели в совокупности и заполняет таблицу лидеров, обновляя ее с течением времени.
Chatbot Arena является важной площадкой для исследователей, так как они часто сталкиваются с трудностями в попытках измерить производительность чат-ботов. Результаты сильно варьируются, поэтому их сложно количественно оценить. В определении качества LLM важны «вибрации» или субъективные ощущения. Понятие «вибрации» распространено в сфере искусственного интеллекта, поскольку числовые показатели, которые измеряют уровень знаний или способность к решению задач, часто подбирают сами поставщики так, чтобы их результаты смотрелись в наиболее выгодном свете.
В настоящее время на Arena представлены четыре версии GPT-4, которые представляют собой дополнительные обновления LLM. К ним относятся GPT-4-0314 («оригинальная» версия GPT-4 от марта 2023 года), GPT-4-0613 (GPT-4 от 13 июня 2023 года с «улучшенной поддержкой вызова функций»), GPT-4-1106-preview (GPT-4 Turbo от ноября 2023 года) и GPT-4-0125-preview (последняя модель GPT-4 Turbo, предназначенная для уменьшения «лени» от января 2024 года).
Несмотря на то, что в таблице лидеров находятся четыре модели GPT-4, модели Anthropic Claude 3 последовательно поднимаются вверх по рейтингу с момента выпуска в начале этого месяца. На фоне успеха Claude 3 некоторые пользователи перешли на него в повседневных рабочих процессах, что потенциально уменьшает долю ChatGPT на рынке.
В сфере ИИ-помощников также набирает популярность Gemini Advanced от Google, который имеет схожие возможности с GPT-4 Turbo от OpenAI. С одной стороны, это может вызывать беспокойство у OpenAI, но, с другой, компания уже готовит новые модели. Ожидается, что в этом году, возможно, летом, будет выпущен следующий крупный преемник GPT-4 Turbo — GPT-4.5 или GPT-5. Сфера языковых моделей становится очень конкурентной, что может привести к новым встряскам в таблице лидеров на платформе Chatbot Arena в ближайшие месяцы и годы.