Hitech logo

Кейсы

OpenAI представила новую функцию генерации изображений в ChatGPT

TODO:
Дарина Житова26 марта, 09:20

OpenAI добавила в ChatGPT функцию генерации изображений. Она получила название «Images in ChatGPT» и уже доступна всем пользователям сервиса. Генерировать картинки будет большая языковая модель GPT-4o, встроенная непосредственно в чат-бот. Она понимает сложные запросы и контекст, а также имеет представления о взаимодействии объектов в реальном мире, поэтому картинки получаются очень реалистичными. На них можно добавлять надписи, которые нейросеть больше не искажает.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Функция доступна как в платных подписках ChatGPT Plus, Pro и Team, так и в бесплатном варианте. Для бесплатных пользователей будут действовать те же лимиты, что ранее применялись в DALL-E: 3 изображения в сутки. Однако представитель OpenAI Тая Кристиансон уточнила, что конкретные цифры со временем могут измениться в зависимости от спроса. Кроме того, текущие пользователи DALL-E смогут и дальше пользоваться сервисом с помощью отдельного GPT-ассистента.

По словам руководителя исследований компании Габриэля Го, новая модель существенно превосходит предыдущие. GPT-4o является омнимодальной: она способна работать не только с текстом и изображениями, но и с другими типами данных, такими как аудио или видео.

Главным улучшением Го назвал возможность модели корректно сочетать характеристики и объекты на создаваемых изображениях. Если предыдущие модели путали цвета и формы уже при 5–8 элементах, то GPT-4o способна правильно расположить до 20 объектов одновременно.

Также улучшилось качество текста на генерируемых картинках. Тексты теперь становятся более чёткими и без опечаток. Как отметил Го, добиться стабильного результата в этой области было непросто: это потребовало нескольких месяцев постепенных улучшений. Однако он признал, что проблемы всё ещё остаются, особенно с мелкими текстами.

Пример изображения с надписями от новой модели. Нейросеть попросили показать самые популярные коктейли и написать их рецепты.

Отличие новой модели в том, что изображение формируется последовательно: от левого верхнего угла к правому нижнему, аналогично написанию текста. Другие системы, включая DALL-E, обычно создают картинку целиком сразу. Именно это, по мнению разработчиков, помогло улучшить как текстовую составляющую изображений, так и точность передачи характеристик объектов.

Нейросеть попросили показать кота, который читает новости за компьютером.

На презентации разработчики показали несколько примеров использования технологии. Система успешно создавала научные схемы с правильными подписями, многостраничные комиксы с последовательными персонажами и грамотным текстом, информационные постеры и меню для ресторанов. Также в ней появилась возможность создавать изображения с прозрачным фоном, что удобно при разработке логотипов и стикеров.

Примеры логотипов, которые может создать модель.

Представитель компании Джеки Шеннон пояснила, что основным преимуществом GPT-4o стало использование большого объёма мировых знаний. Благодаря этому пользователю не нужно подробно описывать контекст запроса: модель самостоятельно понимает и точно воспроизводит даже сложные сюжеты, например, оптический эксперимент Ньютона с призмой.

Ньютон с призмой, которого нейросеть создала по запросу журналистов The Verge.

Минусом новой системы стала скорость генерации изображений, которая снизилась по сравнению с предыдущими версиями. В OpenAI считают такое замедление оправданным, поскольку качество получаемых изображений значительно возросло.

Отдельно OpenAI подчеркнула меры по безопасности контента. В систему встроены ограничения, которые не позволяют создавать сексуальные дипфейки, удалять водяные знаки или генерировать незаконные изображения. При этом созданные картинки не содержат визуальных отметок о том, что они сгенерированы искусственным интеллектом. Вместо них используется внутренняя цифровая маркировка C2PA, а также внутренние инструменты для проверки происхождения изображения.

В компании признают, что ни одна система защиты не является идеальной, однако обещают постоянно совершенствовать механизмы безопасности. Также OpenAI напомнила, что все созданные с помощью ChatGPT изображения принадлежат пользователю, и он может использовать их свободно в рамках политики использования сервиса.