ERNIE-4.5-VL-28B-A3B-Thinking предназначена для мультимодальных задач — понимания текста, изображений, видео и документов. Модель активирует всего 3 млрд параметров из 28 млрд во время работы, используя архитектуру «Смесь экспертов» (MoE). Такой подход экономит вычислительные ресурсы и позволяет модели работать на одном графическом процессоре объемом 80 ГБ, что упрощает ее интеграцию в корпоративные системы.
Ключевая особенность модели — «мышление образами». Она умеет динамически увеличивать и уменьшать масштаб изображений, чтобы внимательно рассмотреть мельчайшие детали, подобно человеку. Это помогает анализировать сложные схемы, выявлять дефекты и обрабатывать большие объемы визуальных данных. Кроме того, модель поддерживает расширенные функции «визуального заземления», позволяющие точно определять объекты на изображениях и в видео. Фаза промежуточного обучения на больших массивах данных улучшила способность системы связывать визуальную информацию с текстом, повышая точность анализа.
Компания утверждает, что модель умеет выполнять многошаговое визуальное рассуждение, анализировать диаграммы и причинно-следственные связи, а также точно локализовать объекты на изображениях и в видео. Кроме того, она может подключать внешние инструменты, такие как поиск изображений, чтобы работать с дополнительными данными.
Контекстное окно модели — 128 000 токенов, что позволяет обрабатывать много текста и изображений, но для корпоративных задач этого может быть недостаточно. Пока нет полной информации о том, как модель справляется с нестандартными данными, проверкой безопасности, устранением ошибок и смещений. Все это тоже важно для корпоративного использования, где ошибки могут стоить дорого.
ERNIE-4.5-VL-28B-A3B-Thinking выпущена под лицензией Apache 2.0, разрешающей неограниченное коммерческое использование. Baidu также предоставила инструментарий ERNIEKit для интеграции модели с существующими платформами, включая Hugging Face Transformers и собственные инструменты FastDeploy.
Выход ERNIE-4.5-VL-28B-A3B-Thinking показывает, что Baidu стремится конкурировать с ведущими мировыми компаниями в сфере ИИ. Хотя независимая проверка заявленных показателей еще не проведена, модель уже привлекла внимание исследователей и разработчиков благодаря сочетанию высокой производительности, открытого кода и возможности коммерческого использования. Baidu планирует продемонстрировать линейку ERNIE на конференции Baidu World 2025 13 ноября.

