Что такое дипфейки и при помощи каких инструментов создаются
Речь идет о синтетически созданном медиаконтенте, в котором одно изображение заменяется другим при помощи алгоритмов машинного обучения. Технология создает «микс» из изображений, благодаря чему Арнольд Шварценеггер может сыграть практически всех персонажей «Властелина колец», а Мистер Бин — выступить вместо Шарлиз Терон в рекламе аромата J’adore Dior.
Обычно такой контент создается с помощью генеративно-состязательной сети (GAN), которая включает 2 системы — генератор и дискриминатор. Первый элемент создает изображения, а второй — их критикует, то есть система учится сама у себя благодаря соперничеству между нейросетями. Нейросеть-автокодировщик обрабатывает массив данных медиаконтента, изучает особенности человеческого лица и мимики, после чего учится их воспроизводить и может синтезировать контент.
Одно из популярных решений, которые созданы на основе технологии GANs, — это FSGAN для трансфера лиц на видео (faceswap), созданная японским разработчиком Shaoanlu. Одна нейросеть учится подгонять лицо донора под параметры целевого видео, вторая переносит черты лица, а третья занимается слиянием изображений, чтобы получить более реалистичную картинку.
Генеративным нейросетям сложнее всего синтезировать такие классы объектов, как люди, машины и ворота. Исследователи отметили это на примере датасета LSUN churches. Сеть семантического понимания Unified Perceptual Parsing используется в качестве модели для семантической сегментации. Нейросеть отмечает каждый пиксель, как принадлежащий объекту одного из 336 классов, далее она выделяет из оригинального изображения фрагменты, содержащие объекты, которые подаются на вход ИИ. Так нейросеть может создавать картинку по наброску и распознавать объекты.
Сеть GAN способна копировать в том числе и голос: чтобы максимально достоверно воспроизводить человеческую речь, нейросети достаточно всего несколько минут аудиозаписи для обучения.
Так, в Google создали генератор речи «такотрон», способный копировать голос на основе 5 секунд входных данных. Система работает в три шага: одна нейросеть верифицирует речь, вторая синтезирует последовательности на основе Tacotron 2, а третья — отвечает за результат на выходе.
Хотя дипфейк-технология использовалась и ранее, сам термин возник в 2017 году, когда пользователи платформы Reddit стали выкладывать в разделе Deepfake подобный измененный контент — это были, как правило, видео для взрослых, в которых использовались лица известных актрис, либо эпизоды с заменой персонажей фильмов на лицо Николаса Кейджа. Таким образом, известный актер «заменил» даже Дона Корлеоне из «Крёстного отца» и Марию из «Звуков музыки».
Успешные кейсы использования технологии
Дипфейки успешно применяются в киноидустрии и рекламных кампаниях: например, в 2014 году Одри Хепберн «представила» шоколад Dove в коротком видеоролике. А в 2020 году «Сбер» выбрал в качестве рекламного персонажа Жоржа Милославского из фильма «Иван Васильевич меняет профессию». Внешность киногероя воссоздали с помощью искусственного интеллекта, а голос синтезировали специалисты Группы ЦРТ, используя около четырех минут разнообразной речи актера Леонида Куравлева из фильмов «Глубокие родственники», «Суета сует», «Не может быть» и «Иван Васильевич меняет профессию».
Музей Сальвадора Дали во Флориде с помощью дипфейков «оживил» художника, который приветствует посетителей. Для создания двойника нейросети потребовалось более 6 000 фотографий Дали и тысяча часов машинного обучения.
Технологию используют и в политических целях: так, президент индийской партии Бхаратия Джаната (BJP) Манодж Тивари применял дипфейк для создания версии речи на диалекте харьянви. Таким образом, избиратели, которые не знают английского и говорят только на этом диалекте, смогли понять ее содержание.
Заместитель генерального директора по технологическому развитию Группы «Иннотех» Антон Якимов рассказывает, что в финтехе DeepFake может послужить для решения маркетинговых задач. «У каждого банка есть амбассадор, и дипфейк может, например, приветствовать посетителя отделения или обращающегося по телефону в контактный центр, рассказывать о новостях в роликах на сайте», — предполагает эксперт.
Кроме того, Антон Якимов отмечает положительное влияние технологии дипфейков на индустрию визуальных эффектов. Искусственный интеллект может существенно снизить бюджеты музыкальных клипов, фильмов и сериалов, когда актерам для опасных сцен не потребуются дублеры. Трюки сможет выполнить любой каскадер, а лицо актера просто будет наложено с помощью DeepFake. У Disney уже есть опыт создания по подобной технологии видео с разрешением 1024×1024 пикселей и компания продолжает совершенствование дипфейков.
Эксперт упомянул образовательный проект Udacity, который использует DeepFake в обучении. Ранее студентам были доступны только презентации или аудиокурс. С помощью дипфейков теперь удается генерировать сотни лекционных видео по уже ранее написанным курсам, что облегчает учебу. А японский проект Data Grid предлагает упростить процесс покупки одежды. Для этого на виртуальную модель накладывается лицо клиента. А после удаётся оценить, насколько подходит та или иная модель одежды.
Опасность «поддельного» контента
Самый очевидный риск связан с использованием технологии мошенниками. В прошлом году преступники украли 35 миллионов долларов у банка в ОАЭ: они клонировали голос директора финансовой организации и использовали его в рамках законной коммерческой операции. Другой случай использования дипфейк-двойника произошел с бизнесменом Дмитрием Мацкевичем. В фальшивых видео основатель платформы Dbrain рекламировал систему заработка на основе искусственного интеллекта. Технология несет в себе риски с точки зрения персональных данных: двойники могут представляться доверенными лицами или сотрудниками и похищать информацию пользователей.
Представляет опасность для многих организаций и копирование голоса с помощью дипфейков. В 2019 году гендиректор британского филиала крупной энергетической компании попался на удочку мошенникам. Он принял звонок от своего «руководителя» из Германии, который заявил, что необходимо перевести 243 тысячи долларов США на счет венгерскому поставщику.
Поскольку голос и манера речи не вызвали никаких подозрений, топ- менеджер перевел им всю сумму. Позднее выяснилось, что ему звонил робот, который научился копировать голос немецкого коллеги по аудиозаписям публичных выступлений.
Дипфейки способны нанести немалый ущерб не только финансам, но и репутации. Скандал произошел из-за видео официального выступления главы палаты представителей̆ Конгресса США Нэнси Пелоси: из-за замедленной речи кажется, что политик находится в состоянии алкогольного опьянения. Доказать использование технологии искусственного интеллекта для трансформации речи Пелоси удалось только с помощью экспертизы.
С другой стороны, дипфейки могут обмануть системы аутентификации Facial Liveness Verification. В 2022 году команда исследователей из университета штата Пенсильвания (США) и Чжэцзянского и Шаньдунского университетов (Китай) выяснила, что большинство систем уязвимы к развивающимся формам дипфейков, поскольку были настроены на устаревшие техники или могут быть слишком специфичными для архитектуры проектов. Плюс ко всему система аутентификации предвзято относится к белым мужчинам, лица женщин и представителей цветных меньшинств оказались не столь восприимчивыми к системам проверки, что несет потенциальную угрозу для этих категорий клиентов. Другой риск использование технологии представляет для детей: им сложнее отличить голос и поддельное изображение родителей на телефоне.
Антон Якимов предостерегает, что, согласно исследованиям амстердамской компании Sensity, с декабря 2018 года каждые шесть месяцев удваивается количество видеодипфейков. Сегодня в интернете находится более 100 тысяч подобных подделок. Нередко DeepFake используется для шантажа обычных пользователей, когда создаются видео с их лицами, и мошенники грозят распространить компрометирующие сведения на семью, родственников и друзей.
Директор по правовым вопросам Группы «Иннотех» Зинаида Бенку разъясняет, что злоумышленники, использующие дипфейк-технологии для осуществления мошеннических схем, могут быть привлечены к ответственности по статье 159 УК РФ «Мошенничество». Если же мошенники начинают вымогать деньги у жертвы, с использованием изображения, которым они создали некое провокационное видео, то такие действия образуют состав статьи 163 УК РФ «Вымогательство». Если аферисты выложат порочащее видео с использованием дипфейк-двойника в общий доступ, то в таком случае они могут быть привлечены к ответственности по статье 128.1 УК РФ «Клевета».
Все эти примеры показывают, что не так важен сам факт использования дипфейк-технологии, сколько факт преступления. А вымогательство, клевета или мошенничество могут быть совершены и без использования каких-либо технологий.
«Жертве, изображение которой было использовано для мошеннического видео, придётся доказывать, что на самом деле на видео был другой человек, и злоумышленники использовали дипфейк-двойника. Очевидно, что правоохранительные органы в первую очередь начнут проверять того, кого они видят на видео. Поэтому в ситуации с основателем Dbrain повезло, что качество наложения изображения было на низком уровне», — поясняет Зинаида Бенку.
Помимо уголовной ответственности, создатель дипфейков может быть привлечен к гражданско-правовой, так как жертва вправе потребовать опровержения сведений, порочащих ее честь, достоинство или деловую репутацию, удаления такой информации, а также возмещения убытков и компенсацию морального вреда от создателя подделки (ст.152 ГК РФ).
И даже если видео не приносит существенного ущерба, но было создано без согласия, то гражданин всё равно вправе потребовать от лица, которое смонтировало или разместило дипфейк-видео, удаления материалов, так как использование изображения допускается исключительно с согласия гражданина (152.1 ГК РФ) и, помимо этого, изображение и голос участника ролика являются его персональными данными (ФЗ № 152 «О персональных данных»).
С чем связано распространение дипфейков
Для генерации дипфейков можно создать и обучить собственную нейросеть, однако это слишком дорогой и сложный вариант. Существует множество доступных программ, которые позволяют модифицировать контент, при этом не требуется прибегать к программированию или вникать в технологические нюансы.
Создать дипфейк «на коленке» можно всего за 5 минут, например, в мобильных приложениях Reface или Impressions. Программы накладывают лица известных людей на записанные пользователем видео. Необходимо просто выбрать знаменитость, загрузить ролик, и приложение создаст дипфейк-версию. Более того, сервисы уже включают каталог аудиозаписей из популярных фильмов, которые можно синхронизировать по губам.
Как нивелировать негативные последствия дипфейков
Некоторые страны защищаются от дипфейков на законодательном уровне. Так, в конце января 2022 года в Китае был принят закон, запрещающий их использование. Чиновники считают, что материалы, созданные ИИ, несут угрозу национальной безопасности, потому должны иметь специальную пометку. Если она отсутствует, создателю дипфейка грозит уголовное наказание, В США отдельные штаты запрещают распространение дипфейков во время президентских кампаний, например, в Калифорнии нельзя создавать и распространять дипфейки в аудио и видеоформате, которые негативно влияют на имидж политиков. А во Франции предусмотрено наказание за монтаж речи или изображения человека без его согласия, закон запрещает публиковать отретушированные фотографии без особой пометки.
Система Facial Liveness Verification, которая представляет собой механизм борьбы с мошенничеством при распознавании лиц, способна отличить взаимодействие с реальным человеком от мошенника, использующего поддельный идентификатор.
Эксперты отмечают, что проблему с безопасностью систем аутентификации по лицу можно решить, если отказаться от проверки по одному изображению, обновлять системы обнаружения DeepFake в графических и голосовых доменах, синхронизировать голосовую аутентификацию с движениями губ. В качестве дополнительной проверки стоит просить пользователей выполнять движений, которые трудно воспроизвести системами дипфейка — просмотр профиля и частичное затемнение лица.
«Пока о системах защиты от дипфейков я не слышал. Но механика должна быть похожа на используемую для защиты от фишинга. Условно ссылка будет передаваться на сервис, проверяющий файл на признаки DeepFake и дающий рекомендацию пользователю верить или нет присланному видео. Организациям, которые используют авторизацию по лицу или голосу уже нужно активно думать над защитой от дипфейков. Шагами к противостоянию мошенником могут быть использование комбинированной авторизации с помощью аудио и видео, требование авторизации в прямом эфире, а не с помощью заранее записанных файлов, и выполнение случайных сложных жестов на камеру», — считает Антон Якимов.
Эксперт отмечает, что в борьбе с дипфейками необходимо больше ориентироваться не на технологии, а на здравый смысл — быть скептиком и меньше верить тому, что приходит из глубин сети. Обычные интернет-пользователи могут защитить себя, повышая медиаграмотность и используя достоверные источники информации. Стоит относиться с осторожностью, если видео низкого качества, с нечетким и смазанным изображением, дублированием элементов. Дипфейки часто выдают неестественная мимика, особенно при моргании, движении бровей и губ.