Logo
Cover

Голосовой помощник от Amazon умеет отвечать шепотом, а теперь при помощи новой технологии ИИ Алексу научили выделять слова интонацией более естественным образом — так, как это делают люди.

Чтобы добиться такого результата, Amazon воспользовалась технологией синтеза речи Neural TTS (NTTS), которая позволяет «Алексе» адаптироваться к стилю произношения в зависимости от контекста запроса. Весь процесс обучения занимает всего несколько часов, и это отдельное достижение.

Метод NTTS, впервые описанный в прошлом году, состоит из двух компонентов. Первый — генеративная нейронная сеть, превращающая последовательность фонем в спектрограммы. Второй — это вокодер, или синтезатор, превращающий эти спектрограммы в продолжительный аудиосигнал, сообщает VentureBeat.

В итоге получается модель ИИ, сочетающая большой объем нейтральной речи со всего несколькими часами дополнительных данных, произнесенных в желаемом стиле.

Алгоритм распознает характерные элементы речи, не зависящие от стилистики и свойственные ей. Для «дикторского» голоса NTTS создала речь с усиленным интонированием, подчеркивающим значимые слова в предложениях.

Пока услышать профессиональный голос «Алексы» можно только в США. Для этого надо попросить ее рассказать о последних новостях или прочесть вслух статью из Википедии. Образцы «чтения с выражением» представлены в блоге Amazon.

Стратегия Amazon заключается в том, чтобы стать частью жизни обывателя, а затем вытеснить из его жизни других голосовых помощников, считают эксперты. И пока эта задумка себя оправдывает.