Союз дикторов России написал письмо главе комитета Госдумы по информполитике Александру Хинштейну, в котором попросил ввести регулирование синтеза голосов с помощью искусственного интеллекта, сообщает «Коммерсантъ». В письме члены союза выражают опасения, что заказчики с помощью ИИ-технологий могут скопировать голос диктора и использовать его сами или передавать третьим лицам. В перспективе (на самом деле уже сегодня) получение синтезированной речи станет дешевле, чем запись диктора, и многие голосовые артисты лишатся работы.
«Заказчики ссылаются на договор, в котором есть пункты про отчуждение прав, право на переработку и право передачи третьим лицам… Поскольку в законе нет норм регулирования использования синтезированного голоса, разработчики применяют термины „отчуждение прав“ и „право на переработку“. На наш взгляд, эти термины являются спорными, учитывая, что синтез голоса — новое понятие в современном мире, и оно требует новых правил и законов», — говорится в обращении.
Под угрозой также оказывается безопасность персональных данных, поскольку голос выступает как средство идентификации личности.
Члены союза предлагают закрепить запрет на отчуждение прав диктора при использовании технологии голосового синтеза, перейти на лицензионные договоры «с четко определенным сроком действия», а также закрепить условие, что запись синтезированного голоса может использоваться только в конкретном проекте. В Союзе дикторов сообщили, что обсуждения с госорганами и несколькими министерствами по поводу регулирования синтеза голоса ведутся уже два года.
ИИ начали активно использовать в озвучивании аудиокниг, что может удешевить и ускорить процесс их производства. Но у владельца или разработчика ИИ должен быть договор на использование голоса. В издательской группе «Эксмо-АСТ» назвали опасения дикторов «не в полной мере оправданными». Например, сервис «Яндекса» SpeechKit, с которым сотрудничает группа, заключает договоры с диктором, на основе голоса которого синтезируется речь. Качества автоматического звучания невозможно добиться без личного участия специалиста, чей голос отобран по специальным параметрам, добавили в «Эксмо-Аст».
Но глава VS Robotics (занимается решениями на базе речевых технологий) Дмитрий Теплицкий рассказал, что теоретически синтезировать речь определенного человека можно и без многочасовой записи — «на основе записей спектаклей, отрывков из фильмов, публичных выступлений». Обычно, чтобы создать новый голос для преобразования текста в речь, компания отбирает дикторов и записывает их живой голос продолжительностью от пяти часов, добавил Теплицкий.
По словам гендиректора ЦРТ Дмитрия Дырмовского, лидирующие в области речевых технологий компании уделяют внимание легитимности применения голоса «и в целом этике ИИ». Управляющий партнер Enterprise Legal Solutions Юрий Федюкин, объяснил, что голос невозможно защитить от «копирования». Законом защищается не сам голос, а «фонограмма, созданная с его применением», то есть конкретный продукт. Внесение изменений в российское законодательство бессмысленно, считает юрист. В случае запрета обработку фонограмм дикторов просто перенесут в другие страны.
На самом деле самые продвинутые модели ИИ позволяют сегодня полностью скопировать голос всего по 5-минутной речи — с построением всех модуляций, особенностей произношения и других характеристик. Бороться с этим уже бессмысленно. Так что дикторам, скорее всего, придется со временем просто найти другую работу. Как и водителям, юристам и много кому еще.