Alibaba выпустила модель Qwen-Image-2.0 для генерации изображений в 2K-разрешении

Кейсы

Екатерина Шемякинская11 февраля, 12:12

Екатерина Шемякинская11 февраля, 12:12

Alibaba Cloud представила Qwen-Image-2.0 — модель с 7 млрд параметров, способную генерировать и редактировать 2K-изображения по сверхдлинным промптам. Новинка рассчитана на создание сложного визуального контента — от каллиграфических полотен до автоматически сверстанных комиксов. На рынке ей предстоит конкурировать с Google Nano Banana Pro.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Qwen-Image-2.0 построена на облегченной архитектуре 7B, что должно обеспечить более высокую скорость работы и упростить внедрение. Одним из главных улучшений стала поддержка сверхдлинных промптов — до 1000 токенов. Это позволяет создавать структурированные визуальные материалы по подробным инструкциям, включая слайды презентаций, инфографику, отчёты и постеры на китайском и английском языках.

Китай меняет образование в пользу ИИ: в вузах закрыли 12 тыс. старых учебных программ

Вторая сильная сторона модели — фотореализм. Qwen-Image-2.0 поддерживает нативное разрешение 2K (2048×2048), благодаря чему может детально прорисовывать фактуру, одежду, архитектуру и черты лица, что особенно важно для рекламных изображений.

Отдельный акцент Alibaba делает на объединении генерации и редактирования в рамках одной омни-модели. Пользователи могут дополнять существующие изображения текстом, каллиграфией или новыми объектами, а также естественно «склеивать» несколько изображений без переключения между разными инструментами.

В компании также отмечают улучшение типографики и визуального выравнивания. Модель умеет автоматически размещать текст в свободных областях изображения и аккуратно оформлять сложные макеты, например, многостраничные комиксы, таблицы и сцены с диалогами.

В качестве примеров применения Alibaba упоминает точное воспроизведение длинных каллиграфических работ в разных стилях, а также генерацию комиксов в формате 4×6 с сохранением внешности персонажей и последовательным расположением реплик.

Доступ к Qwen-Image-2.0 открыт в формате тестового API на платформе Alibaba Cloud BaiLian, а также через Qwen Chat. Релиз выходит на фоне обострения конкуренции в Китае в сегменте генеративной графики — на выходных ByteDance представила видеомодель Seedance 2.0. Эталоном по рендерингу текста и созданию структурного визуального контента вроде инфографики и диаграмм считается Google Nano Banana Pro, выпущенная в ноябре 2025 года.

Также по теме

Кейсы

Китайская ИИ-модель для программирования с открытым кодом обошла GPT-4 Turbo

Кейсы

Человечество выбрасывает на 40% больше метана, чем считалось ранее

Кейсы

OpenAI выпустила GPT-4o — самую быструю и «эмоциональную» ИИ-модель

Кейсы

Завершился Всероссийский конкурс молодых технологических предпринимателей

Новости СМИ2