Для дообучения нейросети использовался датасет в размере 1,5 млрд пар «текст — изображение». Это на 300 млн больше, чем в предыдущей версии — Kandinsky 2.1.
Новая версия модели научилась генерировать стикеры для полноценных стикерпаков в Telegram. Также бот Kandinsky 2.2 теперь способен изменять по текстовому описанию отдельные объекты или элементы на изображениях, сохраняя композицию исходной иллюстрации. Нейросеть усовершенствовали благодаря внедрению специального структурного блока управляемых изменений — ControlNet.
Kandinsky 2.2 распознает запросы на русском и английском языках и умеет рисовать более чем в 20 стилях. Нейросеть может смешивать несколько рисунков, стилизовать изображение по текстовому описанию, генерировать изображения, похожие на заданные, дорисовывать недостающие части картинки (inpainting) и создавать картины в режиме бесконечного полотна (outpainting).
Как и предыдущая версия, Kandinsky 2.2 находится в открытом доступе, так что любой пользователь может протестировать ее бесплатно. Ознакомится с новой версией можно на промо-странице модели, доступной на платформе FusionBrain.AI, а также через Telegram-бот и бот социальной сети «ВКонтакте». Также можно использовать команду «Запусти художника» на умных устройствах от Sber или в мобильном приложении Салют. Модель доступна на платформе ML Space в хабе предобученных моделей и датасетов DataHub.
Нейронную сеть разработали и обучили исследователи Sber AI с партнерской поддержкой ученых из Института искусственного интеллекта AIRI. Для обучения модели использовались данные из объединенного датасета Sber AI и компании SberDevices. Предыдущая модель Kandinsky 2.1 стала самой быстрорастущей нейросетью в мире, набрав 1 млн пользователей за четыре дня после выхода.