Президент OpenAI показал первую картинку, сгенерированную GPT-4o

Тренды

Екатерина Шемякинская16 мая 2024 г., 15:20

Екатерина Шемякинская16 мая 2024 г., 15:20

Президент OpenAI Грег Брокман опубликовал в своем аккаунте X первое общедоступное изображение, созданное с использованием новой модели компании GPT-4o. Картинка показывает человека, пишущего на доске текст о «переносе между модальностями». Иллюстрация выглядит реалистично, демонстрирует точность генерации текста и значительно превосходит по качеству DALL-E 3. Но пока функции создания изображений GPT-4o недоступны широкой публике.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Изображение выглядит фотореалистично: человек в черной футболке с логотипом OpenAI пишет мелом на доске текст с надписью: «Перенос между модальностями. Предположим, мы напрямую моделируем P (текст, пиксели, звук) с помощью одного большого авторегрессионного преобразователя. Каковы плюсы и минусы?».

Конгрессу США показали видео как НЛО «поглотил» удар ракеты Hellfire

Новая модель GPT-4o, представленная 13 мая, является улучшенной версией предшествующей линейки моделей GPT-4 (GPT-4, GPT-4 Vision и GPT-4 Turbo). Новинка превосходит их по разным параметрам: скорость работы, стоимость обработки данных и способность сохранять больше информации из входных аудио- и видеопотоков.

Это стало возможным благодаря тому, что OpenAI применила другой подход. Предыдущие языковые модели GPT-4 объединяли работу нескольких отдельных моделей, преобразовывая другие форматы данных, такие как аудио и изображения, в текст и обратно. Новый GPT-4o изначально был обучен на мультимедийных токенах, что позволяет ему напрямую анализировать и интерпретировать визуальную и звуковую информацию, минуя этап текстового преобразования.

Судя по изображению, новый подход является заметным улучшением по сравнению с DALL-E 3, последней моделью генерации изображений OpenAI, представленной в сентябре 2023 года. Журналист VentureBeat запустил аналогичную подсказку через DALL-E 3 в ChatGPT. Созданное DALL-E 3 изображение значительно уступало GPT-4o по качеству, фотореалистичности и точности генерации текста.

Впрочем, пока возможности GPT-4o по генерации изображений недоступны широкой публике. Брокман в своей публикации написал: «Команда усердно работает над тем, чтобы предоставить их миру».

Также по теме

Тренды

Tesla двое увеличит мощности фабрики в Китае – до 1 млн электромобилей в год

Тренды

Дебютный запуск многоразовой ракеты Neutron может состояться уже в этом году

Тренды

Китайские модели ИИ отстают от лидеров западного рынка

Тренды

Нейросеть ChatGPT пишет рефераты, способные ввести в заблуждение ученых

Новости СМИ2