Hitech logo

искусственный интеллект

Новый ИИ Microsoft имитирует любой голос по трем секундам аудио

TODO:
Георгий Голованов11 января 2023 г., 11:38

Специалисты из Microsoft представили модель искусственного интеллекта Vall-E, которая преобразует текст в речь и может за считанные секунды скопировать любой голос, в том числе, его тональность и акустику (например, голос в телефонной трубке). Другими словами, алгоритм может произнести что угодно голосом человека, который этого не говорил. Алгоритм уже используется компанией в озвучке аудиокниг.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Это не первый ИИ, способный подделывать чужие голоса, отличается он лишь тем, что стал работать намного быстрее. К примеру, алгоритм Lyrebird, созданный в Университете Монреаля в 2017 году, требовал для анализа речи запись длительностью в минуту, а Vall-E хватает и трех секунд.

ИИ прошел обучение на приблизительно 60 000 часах английской речи — в основном ему давали слушать аудиокниги. Разработчики Microsoft выложили примеры попыток Vall-E копировать человеческие голоса. На некоторых из них машинный голос можно отличить от настоящего по неправильно поставленному ударению, а в остальных случаях разница вообще не заметна.

Особенно хорошо у Vall-E получается воссоздать звуковую среду оригинала — если речь записи звучит так, будто говоривший звонит по телефону, так же будет звучать и подделка. Также вполне неплохо он справляется и с акцентами, по крайней мере, с американским, британским и несколькими европейскими, сообщает New Atlas.

Что касается передачи эмоций, то тут результаты менее впечатляющие. Попытки передать злость, усталость, радость или отвращение, которые четко можно было распознать в голосах оригиналов, давали странный результат.

Области применения такой технологии очевидны: каждый сможет озвучивать текст сообщений или список покупок голосом знаменитости или слушать книги, которые читают умершие актеры. Другое дело, что для профессиональных чтецов и актеров озвучивания работы может стать меньше. ИИ пока не способен передать весь спектр эмоций голосом, но простые задачи сможет выполнять намного быстрее и дешевле.

Нельзя забывать и о новых возможностях для мошенничества. Если преступник может украсть любой голос за 3 секунды, ему не составит труда обмануть родственников или обойти систему безопасности на основе распознавания голоса.

Испанский стартап Voicemod запустил летом 2022 года бета-версию своего сервиса AI Voices для генерации голосов знаменитостей и виртуальных персонажей. Платформа применяет алгоритмы машинного обучения для преобразования пользовательских голосов в режиме реального времени. Сейчас разработчик предлагает восемь «личностей», включая голос актера Моргана Фримена, и обещает добавить больше вариантов ближе к полноценному релизу.