Logo
Cover

Разработчики из Nvidia AI представили нейросеть для генерации «говорящих голов» для видеоконференций на основе единственной фотографии. Трехмерный объект реагирует на широкий спектр манипуляций — может поворачиваться в разные стороны, менять направление взгляда. Вдобавок высокое качество изображения достигается при использовании одной десятой ширины полосы частот, чем нужно аналогичным системам.

Nvidia — одна из ведущих компаний мира, занимающихся созданием генеративно-состязательных моделей ИИ. Эти алгоритмы обладают большим потенциалом в сфере развлечений и видеоигр, но также могут применяться злоумышленниками для дезинформации и мошенничества.

На днях группа специалистов компании Nvidia опубликовали статью с описанием новой модели на сайте arXiv. Результаты их работы показывают, что новый алгоритм ИИ превосходит другие методы в стандартных тестах, а также vid2vid, генеративно-состязательную нейросеть, которую разработали в прошлом году эти же ученые, пишет VentureBeat. Кроме того, ИИ достиг стандарта сжатия Н.264 для видео высокого качества, используя на 90% меньше ширины полосы частот.

«Модифицировав всего лишь трансформацию ключевых точек, мы можем генерировать видео. Передавая только трансформации ключевых точек, мы смогли достигнуть намного более высокого коэффициента сжатия, чем существующие методы, — говорится в статье. — Существенно снизив ширину полосы и обеспечив более полный опыт, мы думаем, мы сделали важный шаг в будущее видеоконференций».

Новая модель вышла вскоре после дебюта Maxine, сервиса видеоконференций Nvidia. Вдобавок к виртуальному фону, как в Zoom, Maxine оснащена другими функциями с поддержкой ИИ — снижением уровня шума, коррекцией положения лица на экране или альтернативным ИИ-аватаром.

В июне Яндекс запустил собственный сервис видеоконференций «Телемост». Для него не нужно скачивать отдельное приложение, а также нет ограничения на продолжительность звонка. В дальнейшем функциональность сервиса будет расширяться.