Logo
Cover

При обучении искусственного интеллекта работе в реальном мире — например, роботов-фермеров или помощников хирургов — им сначала показывают двумерные изображения, на основании которых они должны вывести закономерности поведения 3D-объектов в пространстве. Современные методы репрезентации трехмерных сцен из плоских картинок остаются слишком медленными, чтобы их можно было применять на практике. Новая технология, созданная командой специалистов из США, Японии и Сингапура, решает эту проблему.

В компьютерной графике создание 3D-сцены из двумерного изображения требует расчета траектории тысяч или даже миллионов трассирующих лучей, которые, как лазер, выстреливают из камер и попадают в пиксели на картинке. Это длительный и ресурсоемкий процесс.

Международная команда ученых разработала другой подход, основанный на сетях световых полей (LFN), которым, для того чтобы реконструировать световое поле, достаточно одного взгляда на изображение. Они способны построить трехмерную сцену в реальном времени, пишет MIT News.

LFN учится представлять световое поле 3D-сцены, а затем напрямую отмечает положение каждого луча камеры в поле. Метод использует свойства световых полей, позволяющий провести рендеринг луча после единственной оценки, что значимо экономит время.

«Применяя другие методы для такого рендеринга, вы должны следовать за лучом, пока не дойдете до поверхности, — пояснил Винсент Шицман, один из руководителей проекта. — Вам придется сделать тысячи образцов, потому что это и означает найти поверхность. И это еще не все, так как могут быть сложные вещи вроде прозрачности или отражений. С помощью световых полей, как только вы реконструировали его, что непросто, рендеринг отдельного луча занимает один образце репрезентации, поскольку эта репрезентация напрямую соединяет луч с цветом».

Система классифицирует каждый луч камера при помощи Плюккеровых координат, то есть линии в трехмерном пространстве, которая представлена направлением и длиной от начальной точки. Она высчитывает координаты каждого луча камеры в точке, где он доходит до пикселя. Этот метод также позволяет рассчитать геометрию сцены благодаря эффекту параллакса.

Исследователи протестировали свою модель, поручив ей реконструировать объемные световые поля в нескольких простых сценах. Результат показал, что LFN могут отрисовать сцену с частотой свыше 500 кадров в секунду, примерно в 15 000 быстрее, чем другими методами. Вдобавок, 3D-объекты, созданные таким образом, часто выглядят более четкими.

Также LFN требует меньше памяти — всего около 1,6 мегабайт для хранения данных, а не 146 МБ, как распространенные аналоги.

Разработчики из Nvidia AI представили нейросеть для генерации «говорящих голов» для видеоконференций на основе единственной фотографии. Трехмерный объект реагирует на широкий спектр, а высокое качество изображения достигается при использовании одной десятой ширины полосы частот, чем нужно аналогичным системам.