В мае группа художников подала коллективный иск против материнской компании Google Alphabet, утверждая, что она использовала их работы без разрешения для обучения своего генератора изображений на основе ИИ Imagen. Stability AI, Midjourney и DeviantArt, которые используют инструмент Stability Diffusion, также столкнулись с аналогичными исками.
Чтобы избежать этой проблемы, исследователи из Техасского университета в Остине и Калифорнийского университета в Беркли разработали систему генеративного ИИ на основе диффузии, обучаемую только на сильно поврежденных изображениях. Это исключает вероятность того, что ИИ запомнит и воспроизведет оригинальные работы.
Диффузионные модели — это усовершенствованные алгоритмы машинного обучения, которые генерируют высококачественные данные, добавляя шум в набор данных и обучаясь обращать этот процесс вспять. Недавние исследования показали, что эти модели могут запоминать примеры из своего обучающего набора. Это важно для конфиденциальности, безопасности и защиты авторских прав. Например, ИИ, обученный на рентгеновских снимках, не должен запоминать изображения конкретных пациентов, чтобы не нарушить их конфиденциальность. Чтобы избежать этого, производители моделей могут испортить изображение.
С помощью структуры Ambient Diffusion исследователи показали, что модель диффузии может генерировать высококачественные изображения, используя сильно поврежденные образцы.
На изображении выше видно, как повреждение влияет на вывод результата генерации. Исследователи сначала обучили модель на 3000 «чистых» изображениях из CelebA-HQ, базы данных высококачественных изображений знаменитостей. При запросе модель генерировала изображения, почти идентичные оригиналам (левая панель). Затем они переобучили модель, используя 3000 сильно поврежденных изображений, где до 90% пикселей были замаскированы случайным образом. Хотя модель создавала реалистичные человеческие лица, результаты были гораздо менее похожими на оригиналы (правая панель).
Профессор информатики из UT в Остине и соавтор исследования Адам Кливанс отметил, что эта структура может быть полезной для научных и медицинских приложений. Она подойдет для любого случая, где дорого или невозможно получить полный набор неповрежденных данных, например, для изображений черных дыр или определенных типов МРТ.
Результаты работы модели не всегда идеальны. Однако художники могут быть спокойнее, зная, что Ambient Diffusion не запомнит и не воспроизведет их оригинальные работы. Однако это не помешает другим генераторам нарушать авторские права.
Исследователи сделали свой код и модель Ambient Diffusion открытыми для дальнейших исследований. Они доступны на GitHub.