Исследователи протестировали четыре разных LLM: Google Gemini Pro, GPT-3.5 Turbo, GPT-4 Turbo и Mixtral 8×7B от французского стартапа Mistral. В период с 11 по 15 декабря 2023 года исследователи использовали веб-сайт LiteLLM, агрегатор искусственного интеллекта, для проведения эксперимента. В течение четырех дней они запускали различные модели и задавали им 57 различных вопросов с множественным выбором в области STEM, гуманитарных наук и социальных наук. Это позволило провести тестирование на основе знаний и изучить производительность моделей.
В этом тесте Gemini Pro достигла точности чуть ниже, чем у GPT 3.5 Turbo, и намного ниже, чем у GPT 4 Turbo. Gemini Pro достиг результатов 64,12/60,63 (из 100/100), в то время как GPT-3.5 Turbo показал 67,75/70,07 и GPT-4 Turbo 80,48/78,95. Исследователи также заметили, что между ответами, помеченными A, B, C или D, Gemini непропорционально чаще выбирала D, чем другие модели, независимо от того, был ли это правильный ответ.
Модели GPT были более сбалансированы. Это говорит о том, что инструкции Gemini не были тщательно настроены на решение вопросов с несколькими вариантами ответов, что может привести к предвзятости моделей.
Исследователи заметили, что Gemini уступает GPT-3.5 Turbo по нескольким конкретным категориям вопросов, а именно: сексуальность человека, формальная логика, элементарная математика и профессиональная медицина. Это во многом связано с тем, что Gemini отказалась отвечать на некоторые вопросы из-за ограничений безопасности. Исследователи посчитали это ошибочным ответом в своем сравнительном анализе.
Модель Gemini Pro опередила модель GPT-3.5 Turbo в двух категориях вопросов с множественным выбором: безопасности и микроэкономике средней школы. Однако исследователи отметили, что в этих двух случаях превосходство модели Gemini Pro было незначительным. В то же время модель GPT-4 по-прежнему показывала лучшие результаты среди всех протестированных моделей. Gemini Pro превзошла GPT-3.5 Turbo еще в одном случае: когда объем выходных данных LLM был больше 900 токенов.
Исследователи также проверили модели на «рассуждения общего назначения», где не было вариантов ответов. LLM-моделям предлагалось решить логические задачи и дать собственный ответ. Gemini Pro показала немного меньшую точность, чем модель GPT-3.5 Turbo, и значительно меньшую точность, чем модель GPT-4 Turbo. То же самое было в математических задачах и задачах на программирование. Gemini Pro имела трудности с решением более длинных и сложных вопросов, в то время как модели GPT справлялись с ними хорошо. GPT-4 Turbo продемонстрировала почти неизменную точность даже при ответах на сложные и длинные вопросы. При использовании Gemini Pro в качестве «веб-агента», который осуществляет действия в публичном интернете и выполняет задачи от имени пользователя в соответствии с предоставленными инструкциями, она продемонстрировала производительность, сопоставимую, но немного ниже, чем у модели GPT-3.5-Turbo.
Тем не менее, модель Gemini удалось превзойти модели GPT, включая GPT-4, в двух подкатегориях: сортировке слов и манипулировании символами.
Исследователи отметили, что Gemini проявляет особенно хорошие результаты в перестановке слов и правильной последовательности символов. Модель Google также показала высокую производительность в переводе контента. Согласно исследователям, Gemini Pro обошла модели GPT-3.5 Turbo и GPT-4 Turbo в 8 из 20 языков и достигла максимальной производительности на 4 из них. Однако следует отметить, что Gemini Pro также проявила устойчивую тенденцию блокировать ответы в 10 языковых парах, что вероятно связано с интенсивной модерацией и обеспечением безопасности контента.
Google отреагировал на научную работу. В компании заявили, что, согласно их собственных исследованиям, Gemini Pro работает лучше, чем GPT-3.5, а предстоящая Gemini Ultra обошла и GPT-3.5. и GPT-4. Как бы то ни было, результаты исследования явно указывают на то, что Google не достигает желаемой конкурентоспособности с OpenAI в гонке генеративного искусственного интеллекта. Учитывая, что более мощная модель Google, Gemini Ultra, ожидается только в следующем году, Google по-прежнему будет отставать в области производительности искусственного интеллекта, по меньшей мере, до этого момента. Зато Gemini Pro превосходит Mixtral во всех исследованных задачах. Это указывает на то, что модель Google по-прежнему лучше, чем передовой проект с открытым исходным кодом.