Hitech logo

искусственный интеллект

Нейросеть Google создает самые правдоподобные 3D-модели

TODO:
Георгий Голованов5 декабря 2018 г., 13:42

На конференции NeurlPS 2018 в Монреале специалисты MIT и Google описали генеративную систему искусственного интеллекта, способную создавать убедительные трехмерные объекты с реалистичными текстурами.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Новая разработка — Visual Object Networks, или VON — не только генерирует более правдоподобные изображения, чем некоторые самые передовые методы, но и позволяет редактировать формы и текстуры, менять точку обзора и вносить другие изменения в трехмерную фигуру, сообщает VentureBeat.

«Современные глубокие генеративные модели учатся синтезировать реалистичные изображения, пишут разработчики. — Большинство вычислительных моделей сосредотачиваются только на создании двухмерных изображений, игнорируя трехмерную природу мира… Такая 2D-перспектива ограничивает практическое применение систем во многих областях, таких как генерирование искусственных данных, обучение роботов, визуальная реальность и индустрия видеоигр».

VON подходит к проблеме иначе: ИИ синтезирует одновременно 3D-формы и 2D-картинки в ходе процесса, который авторы назвали «свободным представлением объектов».

Модель генерации изображения состоит из трех факторов — формы, точки наблюдения и текстуры — и сначала учится синтезировать трехмерные формы, а потом создает набросок в «2,5D» и добавляет текстуры.

Поскольку все три фактора независимы друг от друга, модель не требует спаривания данных между двух- и трехмерными формами. Это позволяет тренировать ее с использованием крупных коллекций 2D-изображений и 3D-объектов, таких как Pix3D, Google image search и ShapeNet.

Для того чтобы VON научилась самостоятельно создавать предметы, разработчики настроили генеративно-состязательную сеть (GAN).

После двух — трех дней тренировки ИИ создал убедительные модели с разрешением 128×128×128 вокселов с реалистичными отражениями, освещением и альбедо.

Для оценки результата работы GAN команда вычислила расстояние Фреше — показатель, связанный с человеческим восприятием. Помимо этого, исследователи показали 200 пар изображений (один создан VON, другой — другим методом) пяти добровольцам, которые должны были выбрать самый реалистичный результат. Первая метрика показала самый хороший результат среди всех ИИ-моделей, а зрители предпочли продукт VON в 74-85% случаев.

Специалисты DeepMind научили нейросеть реконструировать трехмерные пространства и объекты по рисункам, фотографиям или даже наброскам. Для воссоздания простых фигур ей хватает одной картинки, для сложных помещений с геометрическими объектами — до пяти.