Нейросеть всего несколько часов изучала выпуски новостей, чтобы выявить особенности интонаций ведущих. Сотрудники Amazon разработали метод neural text-to-speech technology (NTTS), который позволяет ИИ быстро применить полученный навык.
Аудиозапись с результатом эксперимента выложена на сайте корпорации. Там шесть фрагментов: по три для мужского и женского голоса. Каждая из трех записей сгенерирована разными способами.
Amazon проверил свою разработку на пользователях. Участники опроса признали, что голос, синтезированный с помощью NTTS, больше всего похож на речь человека.
При этом получившийся голос Alexa нельзя спутать с чтением реального человека, указывает Verge. Тем не менее, смысловые ударения ассистент расставляет так, как это сделал бы ведущий.
Китайские ученые сумели добиться в этой области большего успеха, чем коллеги из Amazon. В агентстве «Синьхуа» начал работать ИИ-двойник ведущего Чжана Чжао.