Logo
Cover

Сама технология создания видео из статических картинок была создана уже какое-то время назад, большой вклад в ее разработку внесли, в частности, специалисты DeepMind. Новизна подхода IBM в том, что их ИИ создает очень плавное, естественное видео, в котором сохраняется связность кадров.

Значительная часть работы в синтезе видео выполняют генеративно-состязательные сети, то есть двухчастные системы, состоящие из генераторов, создающих примеры, и дискриминаторов, которые пытаются отличить их от реальных образцов. Это очень эффективный подход, но его проблема в так называемом коллапсе режима (mode collase), когда генератор создает ограниченный набор примеров (или даже один и тот же пример) вне зависимости от поступающих данных, пишет Venture Beat.

Система Navsynth, разработанная в IBM, состоит из переменной, представляющей характеристики видео-контента, переходной переменной, генератора и рекуррентной модели машинного обучения. Она разбивает видео на статические (свойственные всем кадрам) и переходные (динамические) компоненты.

Для испытаний системы команда использовала три общедоступных набора данных: Chair-CAD, состоящую из почти 1400 трехмерных моделей стульев; Weizmann Human Action с людьми в разных позах; и более 20 000 видео игры в гольф.

По сравнению с видео, созданными несколькими другими базовыми моделями, Navsynth генерирует «визуально более приятные» изображения, которые сохраняют связность кадров. Более того, оно продемонстрировала способность к интерполяции кадров, то есть форме обработки видео, в которой промежуточные кадры создаются между существующими. Так движение выглядит более плавным.   

Алгоритм, позволяющий удалять изображения людей из видео в режиме реального времени, появился на GitHub в феврале. Он распознает структуру фона и на ее основе достраивает недостающие куски изображения, которые раньше занимала человеческая фигура.