Сообщается, что новая модель предлагает более быструю и точную интерпретацию изображений и аудио, чем существующие у OpenAI отдельные модели транскрипции и преобразования текста в речь. По всей видимости, она сможет помочь службам поддержки клиентов «лучше понимать интонацию голосов звонящих или их сарказм». В теории модель сможет помогать студентам с математикой или переводить реальные вывески. Источники издания утверждают, что новинка может превосходить GPT-4 Turbo в «ответах на некоторые типы вопросов», но по-прежнему склонна уверенно выдавать неверную информацию.
Пользователь X и разработчик Ананай Арора опубликовал скриншот кода, связанного с телефонными звонками, что может указывать на подготовку OpenAI к внедрению возможности совершать звонки непосредственно через ChatGPT. Кроме того, Арора обнаружил доказательства того, что OpenAI выделила серверы, предназначенные для аудио- и видеосвязи в режиме реального времени.
Ни одна из этих новинок не является GPT-5. Генеральный директор OpenAI Сэм Альтман заявил, что их предстоящее объявление не связано с моделью, которая, как ожидается, будет существенно лучше GPT-4. Публичный релиз GPT-5 может состояться к концу года.
Альтман также опроверг информацию о том, что компания анонсирует новую поисковую систему с искусственным интеллектом. Однако, если сообщения The Information верны, то объявление OpenAI всё же может частично омрачить конференцию разработчиков Google I/O. Google тоже тестирует технологию использования ИИ для совершения телефонных звонков. Кроме того, ходят слухи о разработке мультимодальной замены Google Assistant под названием Pixie, которая сможет распознавать объекты с помощью камеры устройства и, например, предоставлять инструкции по их использованию или указывать путь к магазинам, где их можно приобрести.
OpenAI представит новые продукты во время прямой трансляции на своем сайте в понедельник в 10:00 по тихоокеанскому времени (20:00 по мск).