Модель DALL-E 2 часто ошибалась, игнорируя конкретные формулировки. По словам исследователей OpenAI, последняя версия гораздо лучше понимает контекст. По сравнению с DALL-E 2, DALL-E 3 эффективнее обрабатывает мелкие детали, например, руки. В DALL-E применяется метод, известный как скрытая диффузия, который преобразует случайный шум в изображения, основываясь на полученных знаниях от обучения на большом наборе данных, а также на подсказках.
Новой функцией DALL-E 3 является интеграция с ChatGPT. Теперь не нужно придумывать собственные подробные инструкции по работе с DALL-E 3. Можно просто попросить ChatGPT придумать подсказку, и чат-бот напишет абзац, который станет руководством для DALL-E 3. При желании можно по-прежнему использовать собственные подсказки, если есть конкретные идеи. В демонстрации для The Verge Адитья Рамеш, ведущий исследователь и руководитель команды DALL-E, предложил ChatGPT помочь придумать логотип для ресторана, подающего рамэн в горах. Затем ChatGPT написал длинную подсказку, и DALL-E предложил четыре варианта. По словам OpenAI, эта связь с чат-ботом позволяет большему количеству людей создавать произведения искусства с использованием ИИ без особых усилий.
DALL-E, впервые выпущенный в январе 2021 года, появился раньше других арт-платформ искусственного интеллекта для преобразования текста в изображение, например, от Stability AI и Midjourney. К моменту выпуска DALL-E 2 в 2022 году OpenAI открыла список ожидания, чтобы контролировать, кто сможет использовать платформу. Это произошло после критики по поводу того, что DALL-E может генерировать фотореалистичные откровенные изображения и проявляет предвзятость при создании фотографий. В сентябре прошлого года компания удалила список ожидания и открыла DALL-E 2 для публики.
OpenAI утверждает, что много работала над DALL-E 3, создавая надежные меры безопасности для предотвращения создания непристойных или ненавистнических изображений. OpenAI сотрудничала с внешними группами, которые намеренно пытались взломать систему, чтобы проверить ее безопасность, а также полагалась на классификаторы входных данных — способ научить языковые модели игнорировать определенные слова. DALL-E 3 также не сможет воссоздавать изображения общественных деятелей, если в подсказке упоминается конкретное имя.
DALL-E 3 обучен отказываться от создания изображений в стиле ныне живущих художников, в отличие от DALL-E 2, который при подсказке может имитировать стиль определенных художников. OpenAI также позволит художникам исключать свои произведения из будущих версий моделей искусственного интеллекта для преобразования текста в изображение, вероятно, чтобы избежать судебных исков. Авторы могут отправить изображение, права на которое у них есть, и запросить его удаление, заполнив форму на веб-сайте. Будущая версия DALL-E сможет блокировать результаты, похожие на изображение и стиль исполнителя. Художники уже подавали в суд на конкурентов DALL-E Stability AI и Midjourney, а также на арт-сайт DeviantArt за то, что те якобы использовали работы, защищенные авторским правом, для обучения своих моделей.
Новая версия DALL-E сначала будет выпущена для пользователей ChatGPT Plus и ChatGPT Enterprise в октябре, а затем для исследовательских лабораторий и службы API. OpenAI не сообщила, когда будет выпущена бесплатная общедоступная версия.