Hitech logo

Искусственный интеллект

В ближайшем будущем каждый сможет клонировать свой голос

TODO:
Георгий Голованов15 сентября 2021 г., 10:16

Клонирование голоса при помощи искусственного интеллекта — одновременно утомительный и простой процесс, что характерно для технологии, достаточно созревшей, чтобы стать общеупотребимой. Нужно только наговорить на микрофон текст длиной около 30 минут, а потом набрать любой текст — и вот уже твой голос говорит то, чего ты не произносил. О возможностях и опасностях этой технологии рассуждает Verge.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Благодаря успехам в машинном обучении синтез речи в последние годы быстро развивается. Раньше самых реалистичных результатов можно было добиться, вырезая куски фраз из аудиозаписей. Теперь нейронные сети, обученные на сырых данных, генерируют речь человека с нуля. Конечный результат получается быстрее, проще и правдоподобнее, и в ближайшем будущем наверняка станет лучше.

Десятки стартапов уже предлагают такие услуги. Некоторые — Resemble.AI или Respeecher — занимаются только синтезом речи, другие (Veritone, Descript) интегрированы в крупные платформы. В августе Sonantic представила ИИ-голос актера Вэла Килмера, который повредил собственный в 2014 году, после трахеотомии. Нечто похожее сделал недавно Брюс Виллис, давший разрешение на использование дипфейкового изображения себя времен «Крепкого орешка» в рекламе «Мегафона».

В ближайшие годы стоит ждать появления множества клонированных голосов знаменитостей, поскольку, как надеются разработчики, известных людей привлечет возможность тиражирования своего голоса с минимальными усилиями. Компания Veritone уже запустила такой сервис в этом году, давая возможность актерам, спортсменам и инфлюенсерам лицензировать свой цифровой голос, даже не заходя в студию.

Разумеется, современные ИИ не могут создать голос человека со всем богатством интонаций, но во многих случаях — например, для автоматических объявлений или голосовых помощников — этого и не требуется. Легко можно представить себе, что геймер захочет озвучить своего игрового персонажа собственным голосом, или приложение, которое читает ребенку сказку на ночь голосом родителя, который не может сегодня быть рядом. Современные технологии уже способны на такое, осталось лишь упростить процесс клонирования.

Есть у этой технологии и потенциальные риски. Мошенники смогут звонить гражданам, представляясь их родственниками, чтобы просить у них денег, или выдавать себя за коллег, чтобы провернуть какую-нибудь махинацию. Наверняка появится шквал фейковых аудиозаписей, выставляющих жертв в дурном свете.

Одно можно сказать наверняка: в будущем каждый сможет создать ИИ-клон своего голоса, если захочет.

Компания Resemble AI утверждает, что создала инструмент Localize, построенные на искусственном интеллекте, который автоматически переводит речь на другие языки голосом оригинала. Localize может поддерживать согласованность голосов на разных языках в фильмах, играх, аудиокнигах, корпоративных видео и других форматах.