Значительная часть работы в синтезе видео выполняют генеративно-состязательные сети, то есть двухчастные системы, состоящие из генераторов, создающих примеры, и дискриминаторов, которые пытаются отличить их от реальных образцов. Это очень эффективный подход, но его проблема в так называемом коллапсе режима (mode collase), когда генератор создает ограниченный набор примеров (или даже один и тот же пример) вне зависимости от поступающих данных, пишет Venture Beat.
Система Navsynth, разработанная в IBM, состоит из переменной, представляющей характеристики видео-контента, переходной переменной, генератора и рекуррентной модели машинного обучения. Она разбивает видео на статические (свойственные всем кадрам) и переходные (динамические) компоненты.
Для испытаний системы команда использовала три общедоступных набора данных: Chair-CAD, состоящую из почти 1400 трехмерных моделей стульев; Weizmann Human Action с людьми в разных позах; и более 20 000 видео игры в гольф.
По сравнению с видео, созданными несколькими другими базовыми моделями, Navsynth генерирует «визуально более приятные» изображения, которые сохраняют связность кадров. Более того, оно продемонстрировала способность к интерполяции кадров, то есть форме обработки видео, в которой промежуточные кадры создаются между существующими. Так движение выглядит более плавным.
Алгоритм, позволяющий удалять изображения людей из видео в режиме реального времени, появился на GitHub в феврале. Он распознает структуру фона и на ее основе достраивает недостающие куски изображения, которые раньше занимала человеческая фигура.