Изначально компания планировала запустить пилотную программу для разработчиков, которые смогут подписаться на Voice Engine API в начале этого месяца. Но после более тщательного рассмотрения этических последствий компания решила «притормозить». «В соответствии с нашим подходом к безопасности ИИ и нашими добровольными обязательствами, мы предпочитаем в настоящее время предварительно анонсировать, но не выпускать широко эту технологию», — пишет OpenAI.
OpenAI говорит, что их голосовая технология предлагает несколько преимуществ. Например, книги будут озвучиваться естественными голосами. Также технология позволяет создателям контента сохранять местные акценты при переводе, тем самым помогая достичь мировой аудитории. Технология поддерживает людей, у которых есть проблемы с общением, предоставляя им персонализированные варианты речи. Кроме того, она может помочь пациентам восстановить их собственный голос после проблем, которые влияют на речевые способности.
С другой стороны, любой, у кого есть 15 секунд чьего-то записанного голоса, может клонировать его, и этим, очевидно, можно злоупотреблять. Возможность клонирования голосов уже вызвала проблемы в обществе из-за телефонного мошенничества. Так, злоумышленники имитировали голос близкого человека, чтобы выманивать деньги. Кроме того, технологию клонирования голоса можно использовать для взлома банковских счетов, использующих голосовую аутентификацию.
OpenAI осознает, что эта технология может вызвать проблемы в случае ее широкого распространения, поэтому изначально пытается обойти их с помощью набора правил. С прошлого года компания тестирует эту технологию с избранными компаниями-партнерами. Например, компания HeyGen, занимающаяся синтезом видео, использовала эту модель для перевода голоса говорящего на другие языки. Age of Learning применяет Voice Engine и GPT-4 для создания персонализированного образовательного голосового контента в реальном времени.
Чтобы использовать Voice Engine, каждый партнер должен согласиться с условиями, которые запрещают «выдавать себя за другое лицо или организацию без согласия или законного права». Партнеры также должны получить информированное согласие от людей, чьи голоса клонируются. Компании обязаны предупреждать, что голоса, которые они производят, генерируются искусственным интеллектом. OpenAI также добавляет водяной знак в каждый образец голоса, который помогает отследить происхождение любого отрывка, сгенерированного Voice Engine.
OpenAI предоставила список шагов в своем блоге, которые необходимы для того, чтобы выпустить подобную технологию для широкого использования. Рекомендации включают постепенный отказ от голосовой аутентификации для банковских счетов, донесение информации об обманчивом ИИ-контенте до общественности и ускорение разработки методов для отслеживания происхождения аудиоконтента. OpenAI также заявляет, что будущая технология клонирования голоса должна проверять, что говорящий «осознанно добавляет свой голос в сервис». Предлагается создать список голосов, которые нельзя клонировать, например, принадлежащих знаменитостям или политикам.