Nova Sonic уже используют в Alexa+, новой версии голосового помощника от Amazon. Модель доступна разработчикам через платформу Bedrock с помощью двунаправленного потокового API. Это значит, что её можно подключить к приложениям, чтобы использовать в живых диалогах и других сценариях, где важен естественный голос.
По словам старшего вице-президента Amazon и главного научного сотрудника AGI-подразделения Рохита Прасада, Nova Sonic построена на технологической базе Alexa и умеет направлять запросы пользователя к нужным сервисам. Она может искать актуальную информацию в интернете, обращаться к внутренним базам данных или выполнять действия в сторонних приложениях в зависимости от запроса.
В отличие от старых моделей, таких как старая версия Alexa или Siri от Apple, Nova Sonic лучше понимает, когда стоит начать говорить. Она учитывает паузы и позволяет собеседнику перебивать себя в разговоре, что делает общение с ней более живым и комфортным. Также она расшифровывает речь пользователя в текст, который потом можно использовать в приложениях.
Модель реже ошибается в распознавании речи, даже если человек говорит нечётко или в шумной обстановке. В тесте Multilingual LibriSpeech, где проверяется точность распознавания речи на разных языках, Nova Sonic показала среднюю ошибку всего 4,2% на английском, французском, итальянском, немецком и испанском языках. Это значит, что в среднем только 4 слова из 100 были распознаны неверно. В другом тесте, Augmented Multi Party Interaction, который моделирует громкие разговоры с несколькими участниками, Nova Sonic справилась лучше модели GPT-4o от OpenAI на 46,7%.
Скорость работы у модели тоже впечатляющая: средняя задержка отклика — 1,09 секунды. Для сравнения, GPT-4o от OpenAI отвечает через 1,18 секунды, согласно данным аналитиков Artificial Analysis.
Nova Sonic — часть стратегии Amazon по созданию агентного искусственного интеллекта, который может выполнять любые действия на компьютере, как человек. В будущем компания планирует выпускать новые модели, способные обрабатывать не только голос, но и изображения, видео и другие виды данных, связанные с физическим миром.
AGI-подразделение Amazon, которым руководит Прасад, сейчас активно влияет на развитие продуктов компании. Например, недавно компания представила Nova Act — модель, способную пользоваться браузером. Она уже встроена в некоторые функции Alexa+ и систему покупок Buy for Me. Прасад подчёркивает, что Amazon собирается делать всё больше своих внутренних моделей доступными для разработчиков.