Если человеку показать два кадра: на столе лежит белый лист, а затем — на столе лежит разорванная бумага, то он сразу поймет, что произошло. Для ИИ это сложная задача, но инженерам Массачусетского института технологий удалось обучить этому нейросеть, сообщает MIT News.
Обычно алгоритмы, чтобы разобраться, что происходит на видео, анализируют кадр за кадром. Такой подход требует много вычислений и занимает время.
В MIT решили научить ИИ ориентироваться по нескольким отдельным кадрам. Для этого алгоритму Temporal Relation Network (TRN) показали более 350 000 видеозаписей с разными действиями — от жестов до игры в баскетбол.
Затем исследователи выбирали четыре, три или два разных кадра и показывали ИИ. Алгоритм должен был вычислить, какое действие происходит в изначальном видео. Например, из двух кадров нейросеть делала вывод, что с большой долей вероятности на видео объект был перемещен вниз. Затем машине показывали третий — промежуточный — кадр, который подтверждал ее предположение.
Нейросеть TRN также справилась с более коварным заданием — выбором между действиями «открыть книгу» и «сделать вид, что открываешь книгу». В этом случае алгоритму потребовались дополнительные данные.
Такой навык не только помогает ИИ ориентироваться в том, что происходит вокруг, но еще и дает возможность предугадывать ближайшее будущее, указывает Болей Чжоу, автор исследования и бывший аспирант MIT, который теперь работает в Китайском университете Гонконга.
На нынешнем этапе алгоритм TRN умеет распознавать действия, но не объекты. Инженеры собираются усовершенствовать нейросеть и помочь ей опознавать предметы. После этого алгоритм обучат основам физики — с помощью тех же видео. И тогда ИИ попробует распознать явления, которые скрываются за тем или иным действием.
Алгоритмы умеют не только предугадывать, но и дорисовывать недостающие кадры. Также нейросети научилипревращать движения плохого танцора в изящные па.