Функция доступна как в платных подписках ChatGPT Plus, Pro и Team, так и в бесплатном варианте. Для бесплатных пользователей будут действовать те же лимиты, что ранее применялись в DALL-E: 3 изображения в сутки. Однако представитель OpenAI Тая Кристиансон уточнила, что конкретные цифры со временем могут измениться в зависимости от спроса. Кроме того, текущие пользователи DALL-E смогут и дальше пользоваться сервисом с помощью отдельного GPT-ассистента.
По словам руководителя исследований компании Габриэля Го, новая модель существенно превосходит предыдущие. GPT-4o является омнимодальной: она способна работать не только с текстом и изображениями, но и с другими типами данных, такими как аудио или видео.
Главным улучшением Го назвал возможность модели корректно сочетать характеристики и объекты на создаваемых изображениях. Если предыдущие модели путали цвета и формы уже при 5–8 элементах, то GPT-4o способна правильно расположить до 20 объектов одновременно.
Также улучшилось качество текста на генерируемых картинках. Тексты теперь становятся более чёткими и без опечаток. Как отметил Го, добиться стабильного результата в этой области было непросто: это потребовало нескольких месяцев постепенных улучшений. Однако он признал, что проблемы всё ещё остаются, особенно с мелкими текстами.
Пример изображения с надписями от новой модели. Нейросеть попросили показать самые популярные коктейли и написать их рецепты.
Отличие новой модели в том, что изображение формируется последовательно: от левого верхнего угла к правому нижнему, аналогично написанию текста. Другие системы, включая DALL-E, обычно создают картинку целиком сразу. Именно это, по мнению разработчиков, помогло улучшить как текстовую составляющую изображений, так и точность передачи характеристик объектов.
Нейросеть попросили показать кота, который читает новости за компьютером.
На презентации разработчики показали несколько примеров использования технологии. Система успешно создавала научные схемы с правильными подписями, многостраничные комиксы с последовательными персонажами и грамотным текстом, информационные постеры и меню для ресторанов. Также в ней появилась возможность создавать изображения с прозрачным фоном, что удобно при разработке логотипов и стикеров.
Примеры логотипов, которые может создать модель.
Представитель компании Джеки Шеннон пояснила, что основным преимуществом GPT-4o стало использование большого объёма мировых знаний. Благодаря этому пользователю не нужно подробно описывать контекст запроса: модель самостоятельно понимает и точно воспроизводит даже сложные сюжеты, например, оптический эксперимент Ньютона с призмой.
Ньютон с призмой, которого нейросеть создала по запросу журналистов The Verge.
Минусом новой системы стала скорость генерации изображений, которая снизилась по сравнению с предыдущими версиями. В OpenAI считают такое замедление оправданным, поскольку качество получаемых изображений значительно возросло.
Отдельно OpenAI подчеркнула меры по безопасности контента. В систему встроены ограничения, которые не позволяют создавать сексуальные дипфейки, удалять водяные знаки или генерировать незаконные изображения. При этом созданные картинки не содержат визуальных отметок о том, что они сгенерированы искусственным интеллектом. Вместо них используется внутренняя цифровая маркировка C2PA, а также внутренние инструменты для проверки происхождения изображения.
В компании признают, что ни одна система защиты не является идеальной, однако обещают постоянно совершенствовать механизмы безопасности. Также OpenAI напомнила, что все созданные с помощью ChatGPT изображения принадлежат пользователю, и он может использовать их свободно в рамках политики использования сервиса.