xAI анонсировала Grok-1 в ноябре прошлого года. Модель позиционируют как универсальную и непредвзятую, готовую дать ответы на самые неудобные вопросы. Маск говорил, что хочет создать ИИ, который поможет человечеству разгадать все тайны вселенной. Ранее Grok-1 превзошел Llama-2-70B и GPT-3.5 в таких тестах, как GSM8K, HumanEval и MMLU.
Grok-1.5 показала даже более впечатляющие результаты. Представители xAI написали в блоге: «Grok-1.5 набрал 50,6% баллов по тесту MATH и 90% баллов по тесту GSM8K, двум математическим испытаниям, охватывающим широкий спектр заданий от курса начальной школы до программы вуза. Кроме того, он набрал 74,1% в тесте HumanEval, который оценивает возможности генерировать код и решать задачи».
В тесте MMLU, который оценивает способность моделей ИИ понимать язык при выполнении различных задач, новая модель набрала 81,3%. Это значительно лучше, чем 73% у Grok-1. Контекстное окно модели вмещает до 128 тысяч токенов — такой же показатель у GPT-4 Turbo, главного конкурента. Это примерно 450 страниц книги: типичный размер серьезной монографии или художественного произведения. По сравнению с Grok-1 размер окна увеличен в 16 раз.
В MMLU показатель Grok-1.5, равный 81,3%, превосходит недавно представленный Mistral Large, но отстает от Gemini 1.5 Pro (83,7%), GPT-4 (86,4% по состоянию на март 2023) и Claude 3 Opus (86,8%). Аналогичный разрыв был отмечен в тесте GSM8K: модель xAI пока отстает от предложений Google, OpenAI и Anthropic. Однако скорость, с которой Grok догоняет своих конкурентов, очень впечатляет — на прирост производительности около 10% по всем тестам разработчикам понадобилось меньше года.
Единственным тестом, в котором Grok-1.5 имел преимущество, был HumanEval, где он превзошел все модели, кроме Claude 3 Opus. xAI рассчитывает использовать это преимущество и обеспечить дальнейший прирост производительности с помощью Grok-2. По словам Маска, будущая модель должна превзойти нынешний ИИ по всем показателям. Сейчас она проходит обучение.