Hitech logo

Тренды

ИИ Claude 3 от стартапа Anthropic впервые победил GPT-4 на «Арене чат-ботов»

TODO:
Екатерина Смирнова28 марта, 13:12

Большая языковая модель Claude 3 Opus от Anthropic впервые превзошла GPT-4 от OpenAI на популярной платформе Chatbot Arena, используемой исследователями в области искусственного интеллекта для сравнения возможностей языковых моделей. В основе этого рейтинга — субъективные оценки пользователей, которые важны для разработчиков LMM, поскольку количественно оценить возможности языковых моделей сложно. Также набирает популярность другой чат-бот от Anthropic, Haiku, и Gemini Advanced от Google. Это свидетельствует о возросшей конкуренции в области языковых моделей.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Поскольку GPT-4 был включен в Chatbot Arena 10 мая 2023 года (таблица лидеров была запущена 3 мая того же года), разные версии GPT-4 стабильно находились на вершине рейтинга. Поэтому поражение чат-бота OpenAI является примечательным. Другая модель Anthropic, Haiku, также попала в таблицу лидеров. По словам независимого исследователя искусственного интеллекта Саймона Уиллисона, впервые лучшими доступными моделями стали продукты не от OpenAI. «Это обнадеживает, поскольку нам выгодно разнообразие ведущих поставщиков в этой области. Но GPT-4 на данный момент уже больше года, и конкурентам потребовался год, чтобы догнать его», — сказал эксперт.

Chatbot Arena управляется Large Model Systems Organization (LMSYS ORG). Это исследовательская организация, которая занимается открытыми моделями в сотрудничестве между студентами и преподавателями Калифорнийского университета в Беркли, Калифорнийского университета в Сан-Диего и Университета Карнеги-Меллон. Chatbot Arena предоставляет пользователю поле ввода чата и два окна, показывающие выходные данные двух неназванных LLM. Задача пользователя — оценить, какой результат лучше, на основе любых критериев. С помощью тысячи таких субъективных сравнений Chatbot Arena вычисляет лучшие модели в совокупности и заполняет таблицу лидеров, обновляя ее с течением времени.

Chatbot Arena является важной площадкой для исследователей, так как они часто сталкиваются с трудностями в попытках измерить производительность чат-ботов. Результаты сильно варьируются, поэтому их сложно количественно оценить. В определении качества LLM важны «вибрации» или субъективные ощущения. Понятие «вибрации» распространено в сфере искусственного интеллекта, поскольку числовые показатели, которые измеряют уровень знаний или способность к решению задач, часто подбирают сами поставщики так, чтобы их результаты смотрелись в наиболее выгодном свете.

В настоящее время на Arena представлены четыре версии GPT-4, которые представляют собой дополнительные обновления LLM. К ним относятся GPT-4-0314 («оригинальная» версия GPT-4 от марта 2023 года), GPT-4-0613 (GPT-4 от 13 июня 2023 года с «улучшенной поддержкой вызова функций»), GPT-4-1106-preview (GPT-4 Turbo от ноября 2023 года) и GPT-4-0125-preview (последняя модель GPT-4 Turbo, предназначенная для уменьшения «лени» от января 2024 года).

Несмотря на то, что в таблице лидеров находятся четыре модели GPT-4, модели Anthropic Claude 3 последовательно поднимаются вверх по рейтингу с момента выпуска в начале этого месяца. На фоне успеха Claude 3 некоторые пользователи перешли на него в повседневных рабочих процессах, что потенциально уменьшает долю ChatGPT на рынке.

В сфере ИИ-помощников также набирает популярность Gemini Advanced от Google, который имеет схожие возможности с GPT-4 Turbo от OpenAI. С одной стороны, это может вызывать беспокойство у OpenAI, но, с другой, компания уже готовит новые модели. Ожидается, что в этом году, возможно, летом, будет выпущен следующий крупный преемник GPT-4 Turbo — GPT-4.5 или GPT-5. Сфера языковых моделей становится очень конкурентной, что может привести к новым встряскам в таблице лидеров на платформе Chatbot Arena в ближайшие месяцы и годы.