Чтобы добиться такого результата, Amazon воспользовалась технологией синтеза речи Neural TTS (NTTS), которая позволяет «Алексе» адаптироваться к стилю произношения в зависимости от контекста запроса. Весь процесс обучения занимает всего несколько часов, и это отдельное достижение.
Метод NTTS, впервые описанный в прошлом году, состоит из двух компонентов. Первый — генеративная нейронная сеть, превращающая последовательность фонем в спектрограммы. Второй — это вокодер, или синтезатор, превращающий эти спектрограммы в продолжительный аудиосигнал, сообщает VentureBeat.
В итоге получается модель ИИ, сочетающая большой объем нейтральной речи со всего несколькими часами дополнительных данных, произнесенных в желаемом стиле.
Алгоритм распознает характерные элементы речи, не зависящие от стилистики и свойственные ей. Для «дикторского» голоса NTTS создала речь с усиленным интонированием, подчеркивающим значимые слова в предложениях.
Пока услышать профессиональный голос «Алексы» можно только в США. Для этого надо попросить ее рассказать о последних новостях или прочесть вслух статью из Википедии. Образцы «чтения с выражением» представлены в блоге Amazon.
Стратегия Amazon заключается в том, чтобы стать частью жизни обывателя, а затем вытеснить из его жизни других голосовых помощников, считают эксперты. И пока эта задумка себя оправдывает.