DALL-E базируется на третьем поколении алгоритма обработки естественного языка OpenAI — GPT-3 с 12 млрд. параметров. Нейросеть свободно манипулирует и переставляет объекты в сгенерированных изображениях, а также создает новые предметы, которые не существуют в реальной жизни. В одном из тестов, разработчики попросили DALL-E сгенерировать куб в виде облака, а затем улыбающуюся редиску в балетной пачке с собакой на поводке. Алгоритм успешно выполнил обе задачи. Более того, система генерирует как иллюстрации, так и фотографии и реалистичные рендеры.
DALL-E получает текст и создает изображения в виде единого потока данных. Процесс обучения позволяет DALL-E не только создавать изображения с нуля, но и воссоздавать любую область существующего изображения, в соответствии с текстовой подсказкой. Как и другие разработки OpenAI, нейросеть DALL-E самообучается и уже работает со сложными предложениями. Для демонстрации наиболее трудоемкой задачи, OpenAI написали предложение «Эмодзи маленького пингвина в синей шапке, красных перчатках, зеленой рубашке, и желтых штанах». В этом тесте DALL-E сопоставил элементы одежды с указанными цветами и вывел 30 разных вариантов изображения, хотя и ошибся в некоторых примерах.
Что касается реальных и практических сценариев применения, то авторы DALL-E еще не определили курс развития для нейросети, но уже рассматривают несколько вариантов. Например, команда OpenAI предлагает использовать DALL-E как новый виток в дизайне интерьера и создании нового стиля в одежде, поскольку ИИ создает необычные цветовые решения и принципиально новые сочетания, так как у него нет никакого исторического бэкграунда, понимания моды и стилевых ограничений.
«Мы осознаем, что работа с генеративными моделями может оказаться значительное и широкое влияние на общество. В будущем мы планируем проанализировать, как модели, такие как DALL-E, связаны с социальными проблемами, такими как экономические влияние на определенные рабочие процессы и профессии, а также для решения проблемы предвзятости в результатах модели и долгосрочные этические проблемы, связанные с этой технологией», — сообщили в OpenAI в пресс-релизе о появлении DALL-E.