Hitech logo

Тренды

GPT 3,5 Turbo обошла Gemini Pro по большинству параметров

TODO:
Екатерина Смирнова20 декабря 2023 г., 12:40

Новое исследование Университета Карнеги-Меллона обнаружило, что самая мощная версия Gemini, доступная сейчас потребителям, Gemini Pro, отстает от модели OpenAI GPT-3.5 Turbo в большинстве задач. Ученые задавали четырем ИИ-моделям вопросы из областей STEM, гуманитарных и социальных наук, а также дали им задачи на рассуждение общего назначения, математические задачи и задачи на программирование. Модель от Google преуспела лишь в сортировке слов, манипулировании символами и переводе на другие языки. Результаты исследования явно подрывают амбиции Google в гонке генеративного искусственного интеллекта и ставят под сомнение его способность конкурировать с OpenAI.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Исследователи протестировали четыре разных LLM: Google Gemini Pro, GPT-3.5 Turbo, GPT-4 Turbo и Mixtral 8×7B от французского стартапа Mistral. В период с 11 по 15 декабря 2023 года исследователи использовали веб-сайт LiteLLM, агрегатор искусственного интеллекта, для проведения эксперимента. В течение четырех дней они запускали различные модели и задавали им 57 различных вопросов с множественным выбором в области STEM, гуманитарных наук и социальных наук. Это позволило провести тестирование на основе знаний и изучить производительность моделей.

В этом тесте Gemini Pro достигла точности чуть ниже, чем у GPT 3.5 Turbo, и намного ниже, чем у GPT 4 Turbo. Gemini Pro достиг результатов 64,12/60,63 (из 100/100), в то время как GPT-3.5 Turbo показал 67,75/70,07 и GPT-4 Turbo 80,48/78,95. Исследователи также заметили, что между ответами, помеченными A, B, C или D, Gemini непропорционально чаще выбирала D, чем другие модели, независимо от того, был ли это правильный ответ.

Модели GPT были более сбалансированы. Это говорит о том, что инструкции Gemini не были тщательно настроены на решение вопросов с несколькими вариантами ответов, что может привести к предвзятости моделей.

Исследователи заметили, что Gemini уступает GPT-3.5 Turbo по нескольким конкретным категориям вопросов, а именно: сексуальность человека, формальная логика, элементарная математика и профессиональная медицина. Это во многом связано с тем, что Gemini отказалась отвечать на некоторые вопросы из-за ограничений безопасности. Исследователи посчитали это ошибочным ответом в своем сравнительном анализе.

Модель Gemini Pro опередила модель GPT-3.5 Turbo в двух категориях вопросов с множественным выбором: безопасности и микроэкономике средней школы. Однако исследователи отметили, что в этих двух случаях превосходство модели Gemini Pro было незначительным. В то же время модель GPT-4 по-прежнему показывала лучшие результаты среди всех протестированных моделей. Gemini Pro превзошла GPT-3.5 Turbo еще в одном случае: когда объем выходных данных LLM был больше 900 токенов.

Исследователи также проверили модели на «рассуждения общего назначения», где не было вариантов ответов. LLM-моделям предлагалось решить логические задачи и дать собственный ответ. Gemini Pro показала немного меньшую точность, чем модель GPT-3.5 Turbo, и значительно меньшую точность, чем модель GPT-4 Turbo. То же самое было в математических задачах и задачах на программирование. Gemini Pro имела трудности с решением более длинных и сложных вопросов, в то время как модели GPT справлялись с ними хорошо. GPT-4 Turbo продемонстрировала почти неизменную точность даже при ответах на сложные и длинные вопросы. При использовании Gemini Pro в качестве «веб-агента», который осуществляет действия в публичном интернете и выполняет задачи от имени пользователя в соответствии с предоставленными инструкциями, она продемонстрировала производительность, сопоставимую, но немного ниже, чем у модели GPT-3.5-Turbo.

Тем не менее, модель Gemini удалось превзойти модели GPT, включая GPT-4, в двух подкатегориях: сортировке слов и манипулировании символами.

Исследователи отметили, что Gemini проявляет особенно хорошие результаты в перестановке слов и правильной последовательности символов. Модель Google также показала высокую производительность в переводе контента. Согласно исследователям, Gemini Pro обошла модели GPT-3.5 Turbo и GPT-4 Turbo в 8 из 20 языков и достигла максимальной производительности на 4 из них. Однако следует отметить, что Gemini Pro также проявила устойчивую тенденцию блокировать ответы в 10 языковых парах, что вероятно связано с интенсивной модерацией и обеспечением безопасности контента.

Google отреагировал на научную работу. В компании заявили, что, согласно их собственных исследованиям, Gemini Pro работает лучше, чем GPT-3.5, а предстоящая Gemini Ultra обошла и GPT-3.5. и GPT-4. Как бы то ни было, результаты исследования явно указывают на то, что Google не достигает желаемой конкурентоспособности с OpenAI в гонке генеративного искусственного интеллекта. Учитывая, что более мощная модель Google, Gemini Ultra, ожидается только в следующем году, Google по-прежнему будет отставать в области производительности искусственного интеллекта, по меньшей мере, до этого момента. Зато Gemini Pro превосходит Mixtral во всех исследованных задачах. Это указывает на то, что модель Google по-прежнему лучше, чем передовой проект с открытым исходным кодом.