Модель объединяет обработку всех типов данных в одной системе, без разделения на отдельные модули. Разработка велась с участием 835 экспертов из технологий, финансов, медицины, образования и гуманитарных наук.
Как пояснила вице-президент Baidu и заместитель директора Национального инженерного центра технологий глубокого обучения У Тянь, большинство мультимодальных ИИ используют подход «позднего слияния», при котором разные типы данных, будь то текст или видео, обрабатываются отдельно, а результаты объединяются только на финальном этапе. Wenxin 5.0 работает иначе: он построен на единой авторегрессионной архитектуре и обучается одновременно на тексте, изображениях, видео и аудио. Это позволяет модели глубже интегрировать данные и лучше понимать контекст.
Кроме того, Ernie Bot 5.0 использует архитектуру mixture-of-experts с «ультраразреженной» активацией. В любой момент задействованы менее 3% параметров. Baidu утверждает, это сохраняет мощность модели и одновременно ускоряет её работу.
Новая версия особенно эффективна в мультимодальном понимании, программировании и творческом письме.
В качестве примера Baidu приводит способность Ernie 5.0 имитировать стиль классического китайского романа «Сон в красном тереме», известного своим сложным сюжетом. Модель связала литературный контекст с современными бизнес-ситуациями, что показывает умение улавливать ключевые идеи и творчески их интерпретировать.
По данным последнего рейтинга LMArena, Ernie 5.0 заняла первое место среди китайских моделей и восьмое место в мировом рейтинге по производительности работы с текстом, опередив такие ведущие американские модели, как GPT-5.1-High от OpenAI и Gemini 2.5-Pro от Google.
Частные пользователи могут получить доступ к Ernie 5.0 через официальное приложение и сайт Baidu. Корпоративные клиенты и разработчики могут использовать модель через облачную платформу Qianfan.

