Подход ученых под названием Distribution matching distillation (DMD) объединяет принципы генеративно-состязательных сетей с принципами диффузионных моделей. Генеративно-состязательные сети состоят из генератора, который создает новые данные, и дискриминатора, который пытается определить, являются ли эти данные реальными или сгенерированными. Диффузионные модели работают путем добавления шума к доступным обучающим данным, а затем обращают процесс для восстановления данных.
DMD состоит из двух компонентов. Первый упорядочивает изображения, делая их свойства и характеристики более предсказуемыми. В результате обучение становится стабильнее. Второй гарантирует, что вероятность генерации определенного изображения моделью-«учеником» соответствует тому, как часто такое изображение встречается в реальном мире. Для этого используются специальные модели диффузии, которые помогают системе отличить настоящие изображения от сгенерированных.
Система достигает более быстрой генерации, поскольку сеть-«ученик» обучается минимизировать расхождения между сгенерированными ею изображениями и изображениями из обучающего набора данных, используемого традиционными моделями диффузии.
Ученые скопировали и настроили параметры исходных моделей, что позволило им быстро обучить новую модель-«ученика». Так, в качестве «учителя» использовалась Stable Diffusion v1.5. Исследователи как бы сжали знания более сложной модели-«учителя» в более простую и быструю модель, обходя проблемы, свойственные генеративно-состязательным сетям. Используя ту же архитектуру эта модель могла генерировать высококачественные изображения. Комбинируя различные методы оптимизации на основе оригинальной архитектуры, можно было ускорить генерацию.
Новый метод позволил генерировать визуальный контент за один шаг. По словам авторов исследования, уменьшение количества итераций было «Святым Граалем» диффузионных моделей с момента их создания. При сравнении с обычными методами с использованием множества тестов DMD показал стабильную производительность. Это первый метод одноэтапной генерации, который создает изображения практически на одном уровне с изображениями исходных, более сложных моделей. Кроме того, DMD справляется с преобразованием текста в изображение в промышленном масштабе. Однако в более сложных задачах преобразования текста в картинки все еще существует небольшая разница в качестве.
Еще одна проблема заключается в том, что качество изображений, созданных с помощью DMD, перенимает недостатки модели-«учителя», используемой в процессе обучения. В текущей форме, где в качестве «учителя» выступала Stable Diffusion v1.5, модель-«ученик» наследует ограничения в детальной визуализации текста и лиц. Поэтому изображения, сгенерированные DMD, можно дополнительно улучшить с помощью более продвинутых моделей-«учителей».