Главной новинкой стала GPT-Realtime-2 — первая аудиомодель OpenAI с логическим мышлением «класса GPT-5». Модель показывает на 11% более высокую производительность по сравнению с GPT-Realtime-1.5, а ее контекстное окно увеличено с 32 тыс. до 128 тыс. токенов. Это позволяет дольше удерживать контекст разговора и обрабатывать более сложные сценарии взаимодействия.
Обновлённая модель GPT-Realtime-2 получила возможность выполнять параллельные действия, информировать пользователя о ходе работы и вставлять короткие реплики вроде «сейчас проверю», чтобы диалог звучал естественнее. Модель уже прошла проверку в реальных условиях: компания Zillow сообщила, что использование GPT-Realtime-2 повысило показатель успешных звонков на 26 процентных пунктов — с 69% до 95%.
Модель также получила регулируемые уровни рассуждений — от минимального до «очень высокого». Стоимость использования модели осталась прежней — $32 за миллион токенов аудиовхода и $64 за миллион токенов аудиовыхода.
Вторая новинка, GPT-Realtime-Translate, предназначена для перевода речи в реальном времени. Модель поддерживает более 70 входных языков и 13 языков вывода, сохраняя темп и структуру речи собеседника. Во время тестирования компания BolnaAI зафиксировала снижение числа ошибок перевода на 12,5% для индийских языков, включая хинди, тамильский и телугу. Использование сервиса обойдется разработчикам в $0,034 за минуту.
Третья модель, GPT-Realtime-Whisper, отвечает за потоковую транскрипцию речи. Она преобразует голос в текст практически в реальном времени и стала развитием семейства Whisper, которое OpenAI впервые представила еще в 2022 году. Стоимость работы модели составляет $0,017 за минуту.
В OpenAI считают, что новые модели помогут создавать голосовые приложения нового поколения — от ИИ-ассистентов и автоматизированных колл-центров до систем синхронного перевода и интерактивных сервисов. Модели уже доступны разработчикам через API и включают встроенные механизмы безопасности для фильтрации нарушающего правила контента.

