Новая модель показала рекордные результаты: 85,0 балла на Arena Hard, 57,6 балла на AlpacaEval 2 LC и 8,98 балла на GPT-4-Turbo MT-Bench. Эти оценки позволили новинке обойти GPT-4o от OpenAI и Claude 3.5 Sonnet от Anthropic, что подтверждает неожиданное лидерство Nvidia в области ИИ.
Компания, ранее известная как производитель графических ускорителей, сделала стратегический шаг, начав разработку БЯМ. Проект Дженсена Хуанга стремится стать полноценным игроком на рынке ИИ и потеснить доминирующих там гигантов. Для создания Llama-3.1-Nemotron-70B-Instruct Nvidia усовершенствовала открытую модель Llama 3.1 от Meta (организация признана экстремистской и запрещена в РФ), применив методы обучения с подкреплением на основе человеческой обратной связи (RLHF).
Модель особенно привлекательна тем, что умеет отвечать на сложные запросы без дополнительного контекста или специальных токенов. Например, она правильно отвечает на вопрос о количестве букв «r» в слове «strawberry»: раньше на нем «засыпались» большинство передовых БЯМ.
На новинку уже обратил внимание крупный бизнес, поскольку модель предоставляет более точные и полезные ответы, которые повышают уровень удовлетворенности пользователей. Разработчики сделали ставку на соответствие ожиданий клиентов и и результатов работы модели. Она отвечает подробно, но точно и по существу. Интегрировать ее в приложения может быть выгоднее, чем пользоваться услугами конкурентов. Nvidia также предоставляет бесплатный доступ к своей модели через платформу build.nvidia.com и предлагает API, совместимый с OpenAI.
Несмотря на высокие показатели, Nvidia предупреждает о рисках: модель пока нежелательно использовать в таких областях, как медицина или юридические расчёты, где точность критически важна. Компания рекомендует применять продукт в стандартных целях и внедрять меры предосторожности для предотвращения ошибок.
Выпуск Llama-3.1-Nemotron-70B-Instruct подтверждает растущее влияние Nvidia на рынок ИИ. Переход проекта от аппаратного обеспечения к разработке БЯМ усиливает конкуренцию и побуждает другие компании ускорять свои исследования и разработки.