С пользовательской точки зрения Vid2Vid Cameo работает просто. Участник видеоконференции выбирает свою фотографию или изображение любого персонажа, загружает ее на платформу и подключается к видеоконференции. Нейросеть создает наиболее комфортные условия для удаленной работы — пользователь может общаться в пижаме с растрепанным волосами, но будет говорить от лица представительного бизнесмена в костюме, объяснили разработчики.
Алгоритмы Nvidia используют обычную веб-камеру для наблюдения за мимикой и эмоциями пользователя, а затем переносят входные данные в популярный сервис конференций, такой как Zoom или Skype. Трансляция проходит с минимальными задержками, так как передается не видеопоток, а только данные изменения мимики, которые «на лету» программно накладываются на аватар. За счет того, что обработкой изображений занимается нейросеть на облачной платформе Nvidia, пользователь может общаться с «имитацией видео» даже с плохим интернет-соединением — без лишних артефактов и помех.
«Многие люди имеют ограниченную пропускную способность интернета, но все же хотят беспрепятственно общаться по видеосвязи с друзьями и семьей. Помимо помощи им, лежащая в основе технология может также использоваться для помощи аниматорам, фоторедакторам и разработчикам игр», — объяснил соавтор разработки Минг-Ю Лю.
Vid2Vid Cameo требует всего двух элементов для создания реалистичной «говорящей головы»: один снимок внешнего вида человека и данные о том, как изображение должно быть анимировано. Модель была обучена с помощью набора данных из 180 тыс. высококачественных видео с разными пользователями. Сеть научилась определять 20 ключевых точек, которые можно использовать для моделирования движения лица — система идентифицирует любые изменения, включая движения глаз, рта, щек и носа.
Как сообщает SiliconAngle, Vid2Vid Cameo не будет самостоятельным продуктом, а войдет в комплексную платформу Nvidia Maxine. Последняя включает набор программных решений с поддержкой ИИ для модернизации удаленной работы и создания нового контента. Maxine уже поддерживает алгоритмы для общения в дополненной реальности, обработку естественного языка и ряд дополнительных функций, вроде голосовых помощников и систем для быстрой расшифровки звука в текст.