Qwen-Image-2.0 построена на облегченной архитектуре 7B, что должно обеспечить более высокую скорость работы и упростить внедрение. Одним из главных улучшений стала поддержка сверхдлинных промптов — до 1000 токенов. Это позволяет создавать структурированные визуальные материалы по подробным инструкциям, включая слайды презентаций, инфографику, отчёты и постеры на китайском и английском языках.
Вторая сильная сторона модели — фотореализм. Qwen-Image-2.0 поддерживает нативное разрешение 2K (2048×2048), благодаря чему может детально прорисовывать фактуру, одежду, архитектуру и черты лица, что особенно важно для рекламных изображений.
Отдельный акцент Alibaba делает на объединении генерации и редактирования в рамках одной омни-модели. Пользователи могут дополнять существующие изображения текстом, каллиграфией или новыми объектами, а также естественно «склеивать» несколько изображений без переключения между разными инструментами.
В компании также отмечают улучшение типографики и визуального выравнивания. Модель умеет автоматически размещать текст в свободных областях изображения и аккуратно оформлять сложные макеты, например, многостраничные комиксы, таблицы и сцены с диалогами.
В качестве примеров применения Alibaba упоминает точное воспроизведение длинных каллиграфических работ в разных стилях, а также генерацию комиксов в формате 4×6 с сохранением внешности персонажей и последовательным расположением реплик.
Доступ к Qwen-Image-2.0 открыт в формате тестового API на платформе Alibaba Cloud BaiLian, а также через Qwen Chat. Релиз выходит на фоне обострения конкуренции в Китае в сегменте генеративной графики — на выходных ByteDance представила видеомодель Seedance 2.0. Эталоном по рендерингу текста и созданию структурного визуального контента вроде инфографики и диаграмм считается Google Nano Banana Pro, выпущенная в ноябре 2025 года.

