OpenAI представила три новые голосовые модели

Кейсы

OpenAI представила три новые голосовые модели — от рассуждений до перевода

Екатерина Шемякинская8 мая, 09:07

Екатерина Шемякинская8 мая, 09:07

Компания выпустила специализированные модели для работы с голосом в реальном времени: флагманскую GPT-Realtime-2, переводчик GPT-Realtime-Translate и транскрибатор GPT-Realtime-Whisper. GPT-Realtime-2 получила логику «уровня GPT-5», контекстное окно на 128 тыс. токенов и способность поддерживать естественный диалог с помощью уточняющих реплик. Все три модели уже доступны разработчикам через API.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Главной новинкой стала GPT-Realtime-2 — первая аудиомодель OpenAI с логическим мышлением «класса GPT-5». Модель показывает на 11% более высокую производительность по сравнению с GPT-Realtime-1.5, а ее контекстное окно увеличено с 32 тыс. до 128 тыс. токенов. Это позволяет дольше удерживать контекст разговора и обрабатывать более сложные сценарии взаимодействия.

Однократная инъекция генной терапии продлила жизнь мышей на 20%

Обновлённая модель GPT-Realtime-2 получила возможность выполнять параллельные действия, информировать пользователя о ходе работы и вставлять короткие реплики вроде «сейчас проверю», чтобы диалог звучал естественнее. Модель уже прошла проверку в реальных условиях: компания Zillow сообщила, что использование GPT-Realtime-2 повысило показатель успешных звонков на 26 процентных пунктов — с 69% до 95%.

Модель также получила регулируемые уровни рассуждений — от минимального до «очень высокого». Стоимость использования модели осталась прежней — $32 за миллион токенов аудиовхода и $64 за миллион токенов аудиовыхода.

Вторая новинка, GPT-Realtime-Translate, предназначена для перевода речи в реальном времени. Модель поддерживает более 70 входных языков и 13 языков вывода, сохраняя темп и структуру речи собеседника. Во время тестирования компания BolnaAI зафиксировала снижение числа ошибок перевода на 12,5% для индийских языков, включая хинди, тамильский и телугу. Использование сервиса обойдется разработчикам в $0,034 за минуту.

Третья модель, GPT-Realtime-Whisper, отвечает за потоковую транскрипцию речи. Она преобразует голос в текст практически в реальном времени и стала развитием семейства Whisper, которое OpenAI впервые представила еще в 2022 году. Стоимость работы модели составляет $0,017 за минуту.

В OpenAI считают, что новые модели помогут создавать голосовые приложения нового поколения — от ИИ-ассистентов и автоматизированных колл-центров до систем синхронного перевода и интерактивных сервисов. Модели уже доступны разработчикам через API и включают встроенные механизмы безопасности для фильтрации нарушающего правила контента.

Также по теме

Кейсы

BI.ZONE представила обновление BI.ZONE Compliance Platform

Кейсы

Первая в мире полупогружная плавучая ветроэлектростанция побила свой рекорд

Кейсы

SpaceX в пятый раз успешно запустила сверхтяжелую ракету Falcon Heavy

Кейсы

Нашумевший стартап DeepSeek выпустил Janus Pro для генерации изображений

Новости СМИ2