Hitech logo

Кейсы

Языковая модель Qwen2-Math от Alibaba обошла в тестах модели от OpenAI и Google

TODO:
Дарина Житова14 августа, 13:54

Новая модель Qwen2-Math, представленная Alibaba Cloud, стала частью семейства Qwen, в которое входят различные языковые модели с различными функциями. Наиболее мощная версия Qwen2-Math с 72 миллиардами параметров набрала 84% на MATH Benchmark — одном из самых сложных тестов, включающем 12,500 задач по математике. Для сравнения, конкуренты от OpenAI и Google уступили этой модели по результатам.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Помимо выдающихся результатов на MATH Benchmark, Qwen2-Math продемонстрировала отличные показатели и на других тестах: 96,7% на школьном экзамене GSM8K и 47,8% на тесте по математике для колледжей. Даже меньшие модели из линейки Qwen2-Math, с параметрами от 1,5 до 7 миллиардов, показали высокие результаты, сравнимые с успехами более крупных аналогов.

Математические языковые модели, такие как Qwen2-Math, предназначены для широкого спектра задач, включая решение уравнений и работу с числами, что может значительно повысить эффективность в различных областях, от разработки ПО до инженерных расчётов. Раньше модели ИИ не всегда справлялись с такими задачами на должном уровне, но Qwen2-Math призвана изменить ситуацию. Вот пример задачи, которую новая модель решила:

Хотя Alibaba сделала Qwen2-Math доступной для использования, коммерческое применение для компаний с более чем 100 миллионами активных пользователей требует получения дополнительной лицензии. Однако это условие остаётся достаточно либеральным и позволяет использовать модели многим стартапам и малым предприятиям практически бесплатно.