Hitech logo

Кейсы

Tencent выпустил ИИ-модель Hunyuan 2.0 с 406 млрд параметров

TODO:
Екатерина ШемякинскаяСегодня, 09:26 AM

Китайский технологический гигант Tencent выводит на рынок языковую модель HY2.0Think с архитектурой «смесь экспертов» и с 406 млрд параметров. Модель поддерживает сверхдлинный контекст до 256 тыс. токенов и демонстрирует лидирующую производительность в задачах, требующих сложных логических рассуждений: математике, программировании, науке. Параллельно Tencent интегрирует в свою экосистему модель DeepSeek V3.2.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

HY2.0 построена на архитектуре «смесь экспертов» (MoE): при общем размере до 406 млрд параметров одновременно задействуется только 32 млрд. Модель поддерживает сверхдлинный контекст — до 256 тыс. токенов, что позволяет ей работать с большими документами и сложными цепочками рассуждений. HY 2.0 Think использует «стратегии штрафа за длину», чтобы избежать генерации излишне многословных выходных данных. По эффективности и скорости вывода Tencent относит её к числу лидеров отрасли.

В отличие от предыдущей версии Hunyuan-T1, модель HY2.0Think тренировали на улучшенных данных для предварительного обучения и с применением обновленных методов обучения с подкреплением. Это повысило качество работы в задачах, где требуются логические выводы, включая математику, естественные науки, программирование и точное следование инструкциям.

HY2.0Think показала сильные результаты в различных бенчмарках, включая задачи уровня Международной математической олимпиады IMO-AnswerBench и HMMT 2025 — конкурс Гарвардского технологического института.

Обновленные данные предварительного обучения также позволили решать тесты, требующие глубоких знаний, такие как Human Last Exam (HLE) и ARC AGI.

В задачах, где важно точно следовать инструкциям и работать с длинными текстами, HY2.0Think сокращает разрыв между обучением и реальным использованием модели с помощью метода «коррекции выборки по важности». Это помогает стабилизировать обучение с подкреплением при обработке длинного контекста и улучшает результаты в сложных многошаговых и многовариантных заданиях.

В области программирования и интеллектуальных агентов Tencent разработала масштабируемые проверяемые среды и синтетические наборы данных. Это расширило возможности модели при написании кода, вызове сложных инструментов и выполнении агентных задач. HY2.0 показала высокий уровень в практических тестах SWE-bench Verified и Tau2-Bench, ориентированных на реальные сценарии применения.

Tencent также постепенно внедряет модель DeepSeek V3.2 в свою экосистему. Впервые обе модели были запущены в фирменных ИИ-приложениях компании — Yuanbao и ima. Одновременно с этим Tencent Cloud открыла к ним доступ через API и облачные сервисы.

Запуск HY2.0 и интеграция DeepSeek V3.2 отражают стратегию Tencent по укреплению собственной ИИ-платформы — от пользовательских приложений до облачных сервисов. Недавно DeepSeek выпустил открытую модель, которая показывает результаты, соответствующие уровню золотой медали Международной математической олимпиады, которую обычно получают лишь около 8% участников.