Это не первый ИИ, способный подделывать чужие голоса, отличается он лишь тем, что стал работать намного быстрее. К примеру, алгоритм Lyrebird, созданный в Университете Монреаля в 2017 году, требовал для анализа речи запись длительностью в минуту, а Vall-E хватает и трех секунд.
ИИ прошел обучение на приблизительно 60 000 часах английской речи — в основном ему давали слушать аудиокниги. Разработчики Microsoft выложили примеры попыток Vall-E копировать человеческие голоса. На некоторых из них машинный голос можно отличить от настоящего по неправильно поставленному ударению, а в остальных случаях разница вообще не заметна.
Особенно хорошо у Vall-E получается воссоздать звуковую среду оригинала — если речь записи звучит так, будто говоривший звонит по телефону, так же будет звучать и подделка. Также вполне неплохо он справляется и с акцентами, по крайней мере, с американским, британским и несколькими европейскими, сообщает New Atlas.
Что касается передачи эмоций, то тут результаты менее впечатляющие. Попытки передать злость, усталость, радость или отвращение, которые четко можно было распознать в голосах оригиналов, давали странный результат.
Области применения такой технологии очевидны: каждый сможет озвучивать текст сообщений или список покупок голосом знаменитости или слушать книги, которые читают умершие актеры. Другое дело, что для профессиональных чтецов и актеров озвучивания работы может стать меньше. ИИ пока не способен передать весь спектр эмоций голосом, но простые задачи сможет выполнять намного быстрее и дешевле.
Нельзя забывать и о новых возможностях для мошенничества. Если преступник может украсть любой голос за 3 секунды, ему не составит труда обмануть родственников или обойти систему безопасности на основе распознавания голоса.
Испанский стартап Voicemod запустил летом 2022 года бета-версию своего сервиса AI Voices для генерации голосов знаменитостей и виртуальных персонажей. Платформа применяет алгоритмы машинного обучения для преобразования пользовательских голосов в режиме реального времени. Сейчас разработчик предлагает восемь «личностей», включая голос актера Моргана Фримена, и обещает добавить больше вариантов ближе к полноценному релизу.