Hitech logo

Кейсы

OpenAI создала ИИ-модель для клонирования голоса по 15-секундной записи

TODO:
Екатерина Смирнова1 апреля, 09:26

OpenAI анонсировала Voice Engine, модель искусственного интеллекта для преобразования текста в речь. Инструмент создает синтетические голоса на основе 15-секундной записи чьей-либо речи. После клонирования голоса пользователь может ввести текст в Voice Engine и получить голосовой результат, сгенерированный ИИ. OpenAI разработала Voice Engine, как оказалось, еще в конце 2022 года. Технология уже применяется в режиме устного разговора ChatGPT, выпущенном в сентябре прошлого года, и через текстовый API OpenAI для синтеза речи. Но компания пока не готова широко распространять эту модель из соображений этики и безопасности.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Изначально компания планировала запустить пилотную программу для разработчиков, которые смогут подписаться на Voice Engine API в начале этого месяца. Но после более тщательного рассмотрения этических последствий компания решила «притормозить». «В соответствии с нашим подходом к безопасности ИИ и нашими добровольными обязательствами, мы предпочитаем в настоящее время предварительно анонсировать, но не выпускать широко эту технологию», — пишет OpenAI.

OpenAI говорит, что их голосовая технология предлагает несколько преимуществ. Например, книги будут озвучиваться естественными голосами. Также технология позволяет создателям контента сохранять местные акценты при переводе, тем самым помогая достичь мировой аудитории. Технология поддерживает людей, у которых есть проблемы с общением, предоставляя им персонализированные варианты речи. Кроме того, она может помочь пациентам восстановить их собственный голос после проблем, которые влияют на речевые способности.

С другой стороны, любой, у кого есть 15 секунд чьего-то записанного голоса, может клонировать его, и этим, очевидно, можно злоупотреблять. Возможность клонирования голосов уже вызвала проблемы в обществе из-за телефонного мошенничества. Так, злоумышленники имитировали голос близкого человека, чтобы выманивать деньги. Кроме того, технологию клонирования голоса можно использовать для взлома банковских счетов, использующих голосовую аутентификацию.

OpenAI осознает, что эта технология может вызвать проблемы в случае ее широкого распространения, поэтому изначально пытается обойти их с помощью набора правил. С прошлого года компания тестирует эту технологию с избранными компаниями-партнерами. Например, компания HeyGen, занимающаяся синтезом видео, использовала эту модель для перевода голоса говорящего на другие языки. Age of Learning применяет Voice Engine и GPT-4 для создания персонализированного образовательного голосового контента в реальном времени.

Чтобы использовать Voice Engine, каждый партнер должен согласиться с условиями, которые запрещают «выдавать себя за другое лицо или организацию без согласия или законного права». Партнеры также должны получить информированное согласие от людей, чьи голоса клонируются. Компании обязаны предупреждать, что голоса, которые они производят, генерируются искусственным интеллектом. OpenAI также добавляет водяной знак в каждый образец голоса, который помогает отследить происхождение любого отрывка, сгенерированного Voice Engine.

OpenAI предоставила список шагов в своем блоге, которые необходимы для того, чтобы выпустить подобную технологию для широкого использования. Рекомендации включают постепенный отказ от голосовой аутентификации для банковских счетов, донесение информации об обманчивом ИИ-контенте до общественности и ускорение разработки методов для отслеживания происхождения аудиоконтента. OpenAI также заявляет, что будущая технология клонирования голоса должна проверять, что говорящий «осознанно добавляет свой голос в сервис». Предлагается создать список голосов, которые нельзя клонировать, например, принадлежащих знаменитостям или политикам.