Hitech logo

Кейсы

Amazon представила голосовую ИИ-модель Nova Sonic

TODO:
Дарина Житова9 апреля, 15:09

Nova Sonic может распознавать речь и генерировать голос почти так же естественно, как человек. Amazon утверждает, что по скорости, точности распознавания и качеству диалога новинка сопоставима с последними разработками от OpenAI и Google. При этом она на 80% дешевле, чем GPT-4o от OpenAI, и считается самой доступной голосовой моделью на рынке.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Nova Sonic уже используют в Alexa+, новой версии голосового помощника от Amazon. Модель доступна разработчикам через платформу Bedrock с помощью двунаправленного потокового API. Это значит, что её можно подключить к приложениям, чтобы использовать в живых диалогах и других сценариях, где важен естественный голос.

По словам старшего вице-президента Amazon и главного научного сотрудника AGI-подразделения Рохита Прасада, Nova Sonic построена на технологической базе Alexa и умеет направлять запросы пользователя к нужным сервисам. Она может искать актуальную информацию в интернете, обращаться к внутренним базам данных или выполнять действия в сторонних приложениях в зависимости от запроса.

В отличие от старых моделей, таких как старая версия Alexa или Siri от Apple, Nova Sonic лучше понимает, когда стоит начать говорить. Она учитывает паузы и позволяет собеседнику перебивать себя в разговоре, что делает общение с ней более живым и комфортным. Также она расшифровывает речь пользователя в текст, который потом можно использовать в приложениях.

Модель реже ошибается в распознавании речи, даже если человек говорит нечётко или в шумной обстановке. В тесте Multilingual LibriSpeech, где проверяется точность распознавания речи на разных языках, Nova Sonic показала среднюю ошибку всего 4,2% на английском, французском, итальянском, немецком и испанском языках. Это значит, что в среднем только 4 слова из 100 были распознаны неверно. В другом тесте, Augmented Multi Party Interaction, который моделирует громкие разговоры с несколькими участниками, Nova Sonic справилась лучше модели GPT-4o от OpenAI на 46,7%.

Скорость работы у модели тоже впечатляющая: средняя задержка отклика — 1,09 секунды. Для сравнения, GPT-4o от OpenAI отвечает через 1,18 секунды, согласно данным аналитиков Artificial Analysis.

Nova Sonic — часть стратегии Amazon по созданию агентного искусственного интеллекта, который может выполнять любые действия на компьютере, как человек. В будущем компания планирует выпускать новые модели, способные обрабатывать не только голос, но и изображения, видео и другие виды данных, связанные с физическим миром.

AGI-подразделение Amazon, которым руководит Прасад, сейчас активно влияет на развитие продуктов компании. Например, недавно компания представила Nova Act — модель, способную пользоваться браузером. Она уже встроена в некоторые функции Alexa+ и систему покупок Buy for Me. Прасад подчёркивает, что Amazon собирается делать всё больше своих внутренних моделей доступными для разработчиков.