Hitech logo

Кейсы

Новая модель OpenAI ускоряет генерацию медиа для БЯМ в 50 раз

TODO:
Екатерина Смирнова24 октября, 13:58

Исследователи OpenAI разработали новый тип модели sCM, которая ускоряет генерацию мультимедиа в 50 раз по сравнению с традиционными диффузионными моделями. Подход sCM создает изображения почти за десятую долю секунды на одном процессоре GPU A100 по сравнению с более чем 5 секундами для обычной диффузии. Новая технология позволяет создавать высококачественные образцы всего за два шага выборки вместо сотен и значительно сокращает вычислительные затраты. Это делает генеративные приложения ИИ в режиме реального времени более осуществимыми.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Диффузионные модели показали отличные результаты в создании реалистичных изображений, 3D-моделей, аудио и видео. Но процесс выборки у них часто требует десятков или даже сотен последовательных шагов. Поэтому они не подходят для приложений в режиме реального времени.

В традиционных моделях диффузии для создания образца требуется большое количество шагов шумоподавления, что обуславливает их низкую скорость. Модель sCM преобразует шум в высококачественные образцы напрямую за один или два шага, сокращая вычислительные затраты и время. Самая большая модель sCM от OpenAI, насчитывающая 1,5 млрд параметров, может сгенерировать образец всего за 0,11 секунды на одном GPU A100. Это в 50 раз ускоряет выполнение задачи по сравнению с моделями диффузии.

Команда обучила модель sCM на наборе данных ImageNet 512×512, масштабируя ее до 1,5 млрд параметров. Даже при таком масштабе модель демонстрирует качество сгенерированных образцов, сопоставимое с лучшими моделями диффузии. Качество выборки находится в пределах 10% от диффузионных моделей, при этом требуется намного меньше вычислительных ресурсов. sCM достигла результата 1,88 по метрике FID на ImageNet 512×512, что говорит о высоком качестве генерируемых изображений.

Новый подход OpenAI сравнили с другими передовыми генеративными моделями. В отличие от предыдущих методов быстрой генерации, которые часто сопровождались снижением качества образцов или требовали сложных процедур обучения, модель SCM преодолевает эти ограничения, предлагая сочетание высокой скорости и качества.

Успех sCM обусловлен ее способностью масштабироваться пропорционально «учителю» — модели диффузии, от которой она получает знания. При увеличении размеров как sCM, так и модели-«учителя», разрыв в качестве генерируемых образцов сокращается. Кроме того, увеличение числа шагов выборки в SCM позволяет еще больше снизить эту разницу.

Высокая скорость генерации и масштабируемость моделей sCM открывают перспективы для применения генеративного искусственного интеллекта в режиме реального времени в различных областях — от синтеза изображений до создания аудио- и видеоконтента. Систему можно оптимизировать, что позволит еще больше ускорить работу моделей и адаптировать их к специфическим потребностям различных отраслей.