Hitech logo

Кейсы

Новая нейросеть DALL-E корректно создает любые изображения из текста

TODO:
Степан Икаев6 января 2021 г., 12:03

Компания OpenAI представила мультимодальную систему на базе машинного обучения — DALL-E. Как сообщает TechCrunch, DALL-E — это языковая модель-трансформер, название которой было сформировано из фамилии художника Сальвадора Дали и имени робота из мультфильма Pixar — WALL-E. Нейронная сеть OpenAI применяет компьютерное зрение и обработку естественного языка для создания принципиально новых изображений из текста.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

DALL-E базируется на тре­тьем поко­ле­нии алго­рит­ма обра­бот­ки есте­ствен­но­го язы­ка OpenAI — GPT-3 с 12 млрд. параметров. Нейросеть свободно манипулирует и переставляет объекты в сгенерированных изображениях, а также создает новые предметы, которые не существуют в реальной жизни. В одном из тестов, разработчики попросили DALL-E сгенерировать куб в виде облака, а затем улыбающуюся редиску в балетной пачке с собакой на поводке. Алгоритм успешно выполнил обе задачи. Более того, система генерирует как иллюстрации, так и фотографии и реалистичные рендеры.

DALL-E получает текст и создает изображения в виде единого потока данных. Процесс обучения позволяет DALL-E не только создавать изображения с нуля, но и воссоздавать любую область существующего изображения, в соответствии с текстовой подсказкой. Как и другие разработки OpenAI, нейросеть DALL-E самообучается и уже работает со сложными предложениями. Для демонстрации наиболее трудоемкой задачи, OpenAI написали предложение «Эмодзи маленького пингвина в синей шапке, красных перчатках, зеленой рубашке, и желтых штанах». В этом тесте DALL-E сопоставил элементы одежды с указанными цветами и вывел 30 разных вариантов изображения, хотя и ошибся в некоторых примерах.

Что касается реальных и практических сценариев применения, то авторы DALL-E еще не определили курс развития для нейросети, но уже рассматривают несколько вариантов. Например, команда OpenAI предлагает использовать DALL-E как новый виток в дизайне интерьера и создании нового стиля в одежде, поскольку ИИ создает необычные цветовые решения и принципиально новые сочетания, так как у него нет никакого исторического бэкграунда, понимания моды и стилевых ограничений.

«Мы осознаем, что работа с генеративными моделями может оказаться значительное и широкое влияние на общество. В будущем мы планируем проанализировать, как модели, такие как DALL-E, связаны с социальными проблемами, такими как экономические влияние на определенные рабочие процессы и профессии, а также для решения проблемы предвзятости в результатах модели и долгосрочные этические проблемы, связанные с этой технологией», — сообщили в OpenAI в пресс-релизе о появлении DALL-E.