Hitech logo

Искусственный интеллект

Стартап превращает фотографии в реалистичные видео

TODO:
Георгий Голованов26 сентября 2021 г., 12:10

Компания, чьи разработки легли в основу популярного приложения MyHeritage, анимирующее семейные фотографии, представила новый вариант применения свой технологии дипфейков: систему трансформации снимков в сверхреалистичное видео. Самое интересное — или пугающее — в том, что человека на фотографии можно заставить произносить что угодно.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

На первый взгляд, приложение Speaking Portraits выглядит как один из дипфейков, расплодившихся за последние пару лет, но на самом деле в его основе лежит совсем другая технология, не требующая обучения. Компания D-ID, дебютировавшая в 2018 году, представила его на TechCrunch Disrupt 2021, предложив использовать приложение для создания цифровых ведущих новостей на телевидении, способных говорить на любых языках и выражать сложные эмоции; для создания виртуальных чатботов для общения с клиентами; для разработки обучающих курсов; и для интерактивной рекламы.

Изначально D-ID занималась технологией распознавания лиц, но затем решила сменить курс, сообщает TechCrunch. По словам главы компании Джила Перри, новое направление открывает богатые возможности. Технология Speaking Portraits интересна и крупным клиентам, например киностудиям вроде Warner Bros., и скромным разработчикам приложений для работы с видео и текстом.

D-ID выпустила свой продукт с поддержкой английского, испанского и японского языков, но планирует в будущем добавить и другие варианты по запросу клиентов. Приложение представлено в двух основных режимах: Single Portrait позволяет анимировать только голову на портрете, но остальные части тела остаются статичными. Опция Trained Character требует 10-минутного видео представленного на фотографии человека, предоставляя возможность оживить тело и руки.

На мероприятии Перри показал демо, созданное из фотографии его самого в детстве. Изображение ребенка произносило слова, написанные перед выступлением, а мимика повторяла движения «кукловода».

Во избежание злоупотребления технологией, позволяющей вкладывать в уста любого оцифрованного человека какие угодно слова, Перри пообещал приложить все усилия для обеспечения «прозрачности и согласия» при использовании технологии Speaking Portraits. Другими словами, пользователей будут предупреждать о том, что именно они видят, а для использования фотографий людей необходимо их согласие.

В качестве примера того, как просто можно получить поддельное изображение любой персоны, представленной в сети, эксперты FireEye создали фейковые фотографии и аудиозаписи Тома Хэнкса. Все инструменты для этого уже есть в открытом доступе, они не требуют углубленных знаний и серьезных расходов.