Hitech logo

Кейсы

Новый ИИ от Baidu с открытым исходным кодом превосходит GPT-5 и Gemini

TODO:
Екатерина ШемякинскаяСегодня, 10:47 AM

Китайский технологический гигант Baidu представил новую мультимодальную модель ERNIE-4.5-VL-28B-A3B-Thinking, которая, по заявлению разработчиков, превосходит решения Google и OpenAI по ряду тестов визуального анализа. Модель может работать на одном графическом процессоре объемом 80 ГБ, экономя вычислительные ресурсы. Благодаря открытой лицензии Apache 2.0 ее легко интегрировать в корпоративные системы и подключать к существующим платформам.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

ERNIE-4.5-VL-28B-A3B-Thinking предназначена для мультимодальных задач — понимания текста, изображений, видео и документов. Модель активирует всего 3 млрд параметров из 28 млрд во время работы, используя архитектуру «Смесь экспертов» (MoE). Такой подход экономит вычислительные ресурсы и позволяет модели работать на одном графическом процессоре объемом 80 ГБ, что упрощает ее интеграцию в корпоративные системы.

Ключевая особенность модели — «мышление образами». Она умеет динамически увеличивать и уменьшать масштаб изображений, чтобы внимательно рассмотреть мельчайшие детали, подобно человеку. Это помогает анализировать сложные схемы, выявлять дефекты и обрабатывать большие объемы визуальных данных. Кроме того, модель поддерживает расширенные функции «визуального заземления», позволяющие точно определять объекты на изображениях и в видео. Фаза промежуточного обучения на больших массивах данных улучшила способность системы связывать визуальную информацию с текстом, повышая точность анализа.

Компания утверждает, что модель умеет выполнять многошаговое визуальное рассуждение, анализировать диаграммы и причинно-следственные связи, а также точно локализовать объекты на изображениях и в видео. Кроме того, она может подключать внешние инструменты, такие как поиск изображений, чтобы работать с дополнительными данными.

Контекстное окно модели — 128 000 токенов, что позволяет обрабатывать много текста и изображений, но для корпоративных задач этого может быть недостаточно. Пока нет полной информации о том, как модель справляется с нестандартными данными, проверкой безопасности, устранением ошибок и смещений. Все это тоже важно для корпоративного использования, где ошибки могут стоить дорого.

ERNIE-4.5-VL-28B-A3B-Thinking выпущена под лицензией Apache 2.0, разрешающей неограниченное коммерческое использование. Baidu также предоставила инструментарий ERNIEKit для интеграции модели с существующими платформами, включая Hugging Face Transformers и собственные инструменты FastDeploy.

Выход ERNIE-4.5-VL-28B-A3B-Thinking показывает, что Baidu стремится конкурировать с ведущими мировыми компаниями в сфере ИИ. Хотя независимая проверка заявленных показателей еще не проведена, модель уже привлекла внимание исследователей и разработчиков благодаря сочетанию высокой производительности, открытого кода и возможности коммерческого использования. Baidu планирует продемонстрировать линейку ERNIE на конференции Baidu World 2025 13 ноября.