Hitech logo

Кейсы

Alibaba выпустила конкурента DeepSeek-R1, уменьшив вычислительные затраты в 60 раз

TODO:
Екатерина Шемякинская6 марта, 09:19

Alibaba представила QwQ-32B — новую модель логических рассуждений с 32 млрд параметров, развивающую возможности предшественницы QwQ за счет обучения с подкреплением. Она обрабатывает контекст до 131 072 токенов, решает задачи по математике и коду, а также демонстрирует конкурентоспособную производительность при меньших вычислительных затратах. QwQ-32B требует всего 24 ГБ видеопамяти, тогда как аналогичный по качеству DeepSeek-R1 — более 1500 ГБ. В отличие от закрытых моделей OpenAI, новинка доступна разработчикам под лицензией Apache 2.0.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

В ноябре 2024 года Alibaba представила QwQ (Qwen-with-Questions) — открытую модель логических рассуждений, которая позиционировалась как конкурент o1-preview. Разработчики сделали упор на логику и планирование, что улучшило работу с математикой и кодом. Первая версия тоже имела 32 млрд параметров и поддерживала контекст до 32 000 токенов. В математических и научных тестах (AIME, MATH, GPQA) QwQ превзошла o1-preview, но уступала в программировании (LiveCodeBench). Последняя разработка Alibaba, QwQ-32B, развивает эти достижения за счет объединения обучения с подкреплением и структурированного самоанализа.

Длина контекста достигает 131 072 токенов, что позволяет лучше обрабатывать длинные последовательности входных данных.

QwQ-32B получила агентские функции, поэтому может гибко адаптировать логику рассуждений на основе внешней информации. Но пока эти возможности ограничены.

Обучение QwQ-32B состояло из двух этапов. Сначала модель оттачивали на математике и программировании: верификатор точности проверял решения задач, а сервер выполнения кода — корректность программ. Это гарантировало, что закреплялись только правильные ответы. Затем модель прошла этап улучшения общих навыков: с помощью вознаграждения её научили лучше следовать инструкциям, рассуждать и соответствовать человеческим ожиданиям, сохраняя при этом сильные стороны в математике и коде.

При сравнении с конкурентами DeepSeek-R1, o1-mini и DeepSeek-R1-Distilled-Qwen-32B модель Alibaba показала впечатляющие результаты при меньшем количестве параметров. Например, DeepSeek-R1 использует 671 млрд параметров (с активацией 37 млрд), а QwQ-32B демонстрирует схожую производительность, требуя всего 24 ГБ видеопамяти на GPU (у Nvidia H100 — 80 ГБ). Для сравнения, полная версия DeepSeek-R1 «съедает» более 1500 ГБ (16 процессоров Nvidia A100). Это иллюстрирует эффективность подхода, основанного на обучении с подкреплением.

Модель выдаёт точные, структурированные и контекстно-зависимые результаты и может автоматизировать анализ данных, стратегическое планирование, разработку ПО и интеллектуальную автоматизацию. Как заявляют в компании, «это мощный инструмент для руководителей, ИТ-лидеров и разработчиков».

QwQ-32B доступна с открытыми весами на Hugging Face и ModelScope под лицензией Apache 2.0, что позволяет использовать её как в коммерческих, так и в исследовательских целях. Компании могут сразу интегрировать модель в свои продукты, включая платные приложения. На выпуск QwQ-32B хорошо отреагировали в сообществе ИИ. Эксперты, включая представителей Hugging Face и Hyperbolic Labs, отметили ее высокую скорость вывода, производительность, сравнимую с более крупными моделями, и простоту развертывания.