Согласно заявлению Альтмана, пользователи бесплатной версии ChatGPT вскоре смогут создавать лишь 3 изображения в день. Это не первое ограничение: ранее OpenAI уже отложила полноценный запуск генератора изображений для бесплатных подписчиков, но этого оказалось недостаточно, чтобы справиться с нагрузкой.
Причиной ажиотажа стал новый инструмент 4o Image Generation (сокращённо 4o IG), встроенный в модель GPT-4o. Эта система обеспечивает по-настоящему мультимодальную генерацию изображений: текстовые и визуальные токены обрабатываются и генерируются одним и тем же нейросетевым механизмом.
Это позволяет более точно следовать контексту диалога, обрабатывать изображения и редактировать их на лету. Среди улучшений — более реалистичная визуализация, высокая точность отображения текста (в отличие от прежних моделей DALL-E) и возможность пошаговой модификации изображений с помощью текстовых команд.
Например, пользователи Reddit показали, как быстро создать реалистичную обложку для видеоролика: достаточно дать нейросети исходное фото и визуальные инструкции.
Однако всё это требует огромных вычислительных ресурсов. В отличие от диффузионных моделей, которые создают изображения из шума, 4o IG строит картинку последовательно, токен за токеном. Это делает процесс гораздо более медленным (от 30 секунд до минуты и более) и энергозатратным.
Тем не менее, OpenAI активно продвигает 4o IG как универсальный инструмент для работы с визуальным контентом — от инфографики и логотипов до редактирования пользовательских фото. Новинка уже доступна пользователям ChatGPT Free, Plus, Pro и Team, а доступ для корпоративных клиентов ожидается позже.
Но рост возможностей вызывает и рост беспокойства. Сообщество активно экспериментирует с подменой лиц, стилизацией под известных авторов (например, в стиле Studio Ghibli) и созданием поддельных скриншотов. Это снова поднимает вопросы авторского права, этики и доверия к визуальному контенту. Несмотря на внедрение метаданных C2PA, подтверждающих происхождение изображений, они легко удаляются, а значит — потенциальные манипуляции остаются возможными.
Сэм Альтман признаёт риск: «Люди создадут как потрясающие, так и, возможно, оскорбительные вещи. Наша цель — чтобы инструмент создавал оскорбительное только по запросу. Мы уважаем рамки, которые общество в итоге выберет для ИИ».