Hitech logo

Идеи

Нейросеть Nvidia превращает аватары-фотографии в видео на видеоконференциях

TODO:
Степан Икаев27 июня 2021 г., 11:52

Компания Nvidia представила новый продукт, построенный на глубоком обучении нейросетей — алгоритм Vid2Vid Cameo AI. Он разработан с целью упростить и усовершенствовать рабочие процессы в условиях карантина. Vid2Vid Cameo берет статичную фотографию пользователя и анимирует ее мимикой в режиме реального времени, заменяя получившимся синтетическим видео потоковую видеотрансляцию. Технология кратно сокращает нагрузку на каналы связи и упрощает подготовку к видеосовещаниям — внешний вид перестает быть важным, достаточно иметь в запасе пару презентабельных фотографий.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

С пользовательской точки зрения Vid2Vid Cameo работает просто. Участник видеоконференции выбирает свою фотографию или изображение любого персонажа, загружает ее на платформу и подключается к видеоконференции. Нейросеть создает наиболее комфортные условия для удаленной работы — пользователь может общаться в пижаме с растрепанным волосами, но будет говорить от лица представительного бизнесмена в костюме, объяснили разработчики.

Алгоритмы Nvidia используют обычную веб-камеру для наблюдения за мимикой и эмоциями пользователя, а затем переносят входные данные в популярный сервис конференций, такой как Zoom или Skype. Трансляция проходит с минимальными задержками, так как передается не видеопоток, а только данные изменения мимики, которые «на лету» программно накладываются на аватар. За счет того, что обработкой изображений занимается нейросеть на облачной платформе Nvidia, пользователь может общаться с «имитацией видео» даже с плохим интернет-соединением — без лишних артефактов и помех.

«Многие люди имеют ограниченную пропускную способность интернета, но все же хотят беспрепятственно общаться по видеосвязи с друзьями и семьей. Помимо помощи им, лежащая в основе технология может также использоваться для помощи аниматорам, фоторедакторам и разработчикам игр», — объяснил соавтор разработки Минг-Ю Лю.

Vid2Vid Cameo требует всего двух элементов для создания реалистичной «говорящей головы»: один снимок внешнего вида человека и данные о том, как изображение должно быть анимировано. Модель была обучена с помощью набора данных из 180 тыс. высококачественных видео с разными пользователями. Сеть научилась определять 20 ключевых точек, которые можно использовать для моделирования движения лица — система идентифицирует любые изменения, включая движения глаз, рта, щек и носа.

Как сообщает SiliconAngle, Vid2Vid Cameo не будет самостоятельным продуктом, а войдет в комплексную платформу Nvidia Maxine. Последняя включает набор программных решений с поддержкой ИИ для модернизации удаленной работы и создания нового контента. Maxine уже поддерживает алгоритмы для общения в дополненной реальности, обработку естественного языка и ряд дополнительных функций, вроде голосовых помощников и систем для быстрой расшифровки звука в текст.