Hitech logo

Кейсы

Маск заявил, что Грок приблизился к производительности GPT-4

TODO:
Дарина Житова1 апреля, 10:39

После открытия исходного кода Grok-1 прошло совсем мало времени, а Маск уже анонсировал Grok-1,5. Модель выйдет на следующей неделе. Она обладает улучшенными возможностями к рассуждению, эффективно решает проблемы и даже приблизилась к лидерам рынка — GPT-4 и Claude 3. У модели также увеличено контекстное окно: она может обрабатывать до 128 000 токенов. Это примерно 450 страниц книги — типичный размер серьёзной монографии.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

xAI анонсировала Grok-1 в ноябре прошлого года. Модель позиционируют как универсальную и непредвзятую, готовую дать ответы на самые неудобные вопросы. Маск говорил, что хочет создать ИИ, который поможет человечеству разгадать все тайны вселенной. Ранее Grok-1 превзошел Llama-2-70B и GPT-3.5 в таких тестах, как GSM8K, HumanEval и MMLU.

Grok-1.5 показала даже более впечатляющие результаты. Представители xAI написали в блоге: «Grok-1.5 набрал 50,6% баллов по тесту MATH и 90% баллов по тесту GSM8K, двум математическим испытаниям, охватывающим широкий спектр заданий от курса начальной школы до программы вуза. Кроме того, он набрал 74,1% в тесте HumanEval, который оценивает возможности генерировать код и решать задачи».

В тесте MMLU, который оценивает способность моделей ИИ понимать язык при выполнении различных задач, новая модель набрала 81,3%. Это значительно лучше, чем 73% у Grok-1. Контекстное окно модели вмещает до 128 тысяч токенов — такой же показатель у GPT-4 Turbo, главного конкурента. Это примерно 450 страниц книги: типичный размер серьезной монографии или художественного произведения. По сравнению с Grok-1 размер окна увеличен в 16 раз.

В MMLU показатель Grok-1.5, равный 81,3%, превосходит недавно представленный Mistral Large, но отстает от Gemini 1.5 Pro (83,7%), GPT-4 (86,4% по состоянию на март 2023) и Claude 3 Opus (86,8%). Аналогичный разрыв был отмечен в тесте GSM8K: модель xAI пока отстает от предложений Google, OpenAI и Anthropic. Однако скорость, с которой Grok догоняет своих конкурентов, очень впечатляет — на прирост производительности около 10% по всем тестам разработчикам понадобилось меньше года.

Единственным тестом, в котором Grok-1.5 имел преимущество, был HumanEval, где он превзошел все модели, кроме Claude 3 Opus. xAI рассчитывает использовать это преимущество и обеспечить дальнейший прирост производительности с помощью Grok-2. По словам Маска, будущая модель должна превзойти нынешний ИИ по всем показателям. Сейчас она проходит обучение.