MGIE, она же MLLM-Guided Image Editing, позволяет редактировать изображения на базовом и продвинутом уровне без использования специального ПО. Модель сочетает в себе два различных способа использования мультимодальных языковых моделей. Во-первых, она учится интерпретировать подсказки пользователя. Затем она «воображает», как нужно отредактировать картинку пошагово (например, если попросить сделать небо более синим, модель увеличит яркость этого фрагмента фото на 20%).
У модели заявлены несколько функций. Во-первых, она может создавать понятные и точные указания для редактирования на основе пользовательского запроса. То есть она переводит абстрактный запрос в четкую инструкцию. Например, когда модель попросили отредактировать фото пиццы с колбасой и сделать ее «более полезной», она добавила к ней овощи. Во-вторых, MGIE умеет выполнять распространенные виды правок, как в Photoshop. Например, она может обрезать картинку, изменить ее размер, перевернуть ее и добавить фильтры. Ей под силу и более сложные изменения, такие как смена фона, добавление или удаление объектов. Она может объединять и смешивать картинки.
В-третьих, MGIE способна улучшать общее качество фотографии, включая яркость, контраст, четкость и баланс цвета. Она может применять художественные эффекты, такие как рисование, живопись и карикатуры. Наконец, MGIE может изменять конкретные области или объекты на изображении, например, черты лица, глаза, волосы, одежду и аксессуары. Также можно изменить атрибуты определенных областей или объектов, такие как форма, размер, цвет, текстура и стиль.
Разработчики выложили на GitHub код, данные и предварительно обученную модель. Они снабдили ее инструкцией. Пользователи могут также попробовать MGIE онлайн через демо-версию на Hugging Face Spaces, платформе совместной работы над проектами в области машинного обучения.
Apple не позиционирует себя как крупного игрока в сфере ИИ и ПО для редактирования изображений. Компания также пока молчит о своих планах о дальнейшем использовании модели. Однако генеральный директор Apple Тим Кук заявил, что компания хочет добавить больше функций искусственного интеллекта в свои устройства в этом году. В декабре исследователи Apple выпустили платформу машинного обучения с открытым исходным кодом под названием MLX, чтобы упростить обучение моделей искусственного интеллекта на чипах Apple Silicon. Возможно, новая модель будет со временем интегрирована в сервис работы с фото в смартфонах и планшетах Apple.