Amazon вместе со своим облачным подразделением AWS запустила Brand Voice — сервис по превращению текста в естественно звучащий голос. Как объяснили руководители проекта, так организации смогут придать своему бренду уникальность. Другими словами, смоделированная на компьютере рекламная речь будет звучать так, как если бы ее произнес какой-нибудь известный человек, пишет Venture Beat.
Amazon уже помогал сети ресторанов быстрого питания KFC в Канаде создать голос, который говорит с южно-американским акцентом, свойственным лицу бренда полковнику Сандерсу. А для Австралийского национального банка был разработан голос с произношением, характерным для жителей этой страны.
Технические подробности работы сгенерированного искусственным интеллектом голоса были опубликованы в прошлогодней статье «Effect of data reduction on sequence-to-sequence neural TTS». В ней авторы описали систему, которая учиться имитировать новый стиль произношения всего за несколько часов тренировок — а не за десятки часов, которые могут уйти у актера на то, чтобы прочитать текст с нужными интонациями.
ИИ-модель Amazon состоит из двух компонентов. Первый — это генеративно-состязательная нейронная сеть, которая преобразует последовательность фонем в ряд спектрограмм, или визуальных представлений звуковых частот во времени. Второй — вокодер, который превращает эти спектрограммы в длительный аудиосигнал. В результате большое количество аудиозаписей речи в нейтральном стиле комбинируется с небольшим объемом речи в нужной стилистике.
Осенью прошлого года стало известно о крупной афере с использованием алгоритма машинного обучения. Злоумышленники использовали ИИ для того, чтобы подделать голос и выдать себя за директора одной немецкой компании — и обманом заполучить свыше $200 0000.