Алгоритм синтезирования новых фраз с сохранением артикуляции и интонаций говорящего, а также их привязкой к видео — плод работы сотрудников Стэнфорда, Принстона, Университета имени Макса Планка и компании Adobe. Теперь, указывает Next Web, для создания правдоподобного дипфейка не нужно никакого спецоборудования. ИИ обходится и без модели — человека, который раньше проговаривал все, что должен «сказать» человек на видео.
Схема работы ИИ описывается в статье на Arxiv. Алгоритм считывает фонемы, слова и артикуляцию с оригинального видео, а также создает модель головы спикера. После этого в нее можно «вложить» новые слова — причем произносить их не нужно, ИИ хватит и текста. Для того, чтобы составленные из отдельных звуковых фрагментов фразы звучали натурально, используется умная система адаптации и сглаживания звука.
Сейчас алгоритму для составления «словаря» необходимом минимум 40 минут выступлений спикера, но это время можно сократить, надеются исследователи.
На видео ученый из Стэнфорда Охад Фрайд рассказывает о работе нейросети и демонстрирует, с какой легкостью ИИ подменяет одну фразу другой.
Такое правдоподобие и простота использования порождают новые опасения по поводу засилья дипфейк-видео, но Фрайд уверен, что человечество с этим справится: «Фото редактируют уже десятки лет — а Земля все крутится».
Ученый полагает, что эта работа обратит внимание на необходимость маркировки отредактированных видео. По его замыслу, «цифровые водяные знаки» должны сохранять максимум об изменении видео — каждый отредактированный любыми способами фрагмент и его длительность.
В таком варианте алгоритм сделает производство видео и кинопродукции гораздо эффективнее — ведь дубль больше не придется переснимать из-за оговорки актера или ведущего, рассуждает Фрайд.
Дипфейки — одно из динамично развивающихся приложений ИИ, и достижения в этой области может оценить каждый. Хайтек+ подробно рассказывал о, пожалуй, самом знаменитом клипе весны — социальной рекламе, где экс-футболист Дэвид Бэкхем говорит на девяти языках.