Диффузионные модели показали отличные результаты в создании реалистичных изображений, 3D-моделей, аудио и видео. Но процесс выборки у них часто требует десятков или даже сотен последовательных шагов. Поэтому они не подходят для приложений в режиме реального времени.
В традиционных моделях диффузии для создания образца требуется большое количество шагов шумоподавления, что обуславливает их низкую скорость. Модель sCM преобразует шум в высококачественные образцы напрямую за один или два шага, сокращая вычислительные затраты и время. Самая большая модель sCM от OpenAI, насчитывающая 1,5 млрд параметров, может сгенерировать образец всего за 0,11 секунды на одном GPU A100. Это в 50 раз ускоряет выполнение задачи по сравнению с моделями диффузии.
Команда обучила модель sCM на наборе данных ImageNet 512×512, масштабируя ее до 1,5 млрд параметров. Даже при таком масштабе модель демонстрирует качество сгенерированных образцов, сопоставимое с лучшими моделями диффузии. Качество выборки находится в пределах 10% от диффузионных моделей, при этом требуется намного меньше вычислительных ресурсов. sCM достигла результата 1,88 по метрике FID на ImageNet 512×512, что говорит о высоком качестве генерируемых изображений.
Новый подход OpenAI сравнили с другими передовыми генеративными моделями. В отличие от предыдущих методов быстрой генерации, которые часто сопровождались снижением качества образцов или требовали сложных процедур обучения, модель SCM преодолевает эти ограничения, предлагая сочетание высокой скорости и качества.
Успех sCM обусловлен ее способностью масштабироваться пропорционально «учителю» — модели диффузии, от которой она получает знания. При увеличении размеров как sCM, так и модели-«учителя», разрыв в качестве генерируемых образцов сокращается. Кроме того, увеличение числа шагов выборки в SCM позволяет еще больше снизить эту разницу.
Высокая скорость генерации и масштабируемость моделей sCM открывают перспективы для применения генеративного искусственного интеллекта в режиме реального времени в различных областях — от синтеза изображений до создания аудио- и видеоконтента. Систему можно оптимизировать, что позволит еще больше ускорить работу моделей и адаптировать их к специфическим потребностям различных отраслей.