Hitech logo

искусственный интеллект

Новый ИИ превращает 2D-изображение в 3D-модель за 5 секунд

TODO:
Дарина Житова15 ноября 2023 г., 11:17

Adobe Research и Австралийский Национальный Университет (ANU) объявили о создании первой модели искусственного интеллекта, способной генерировать трехмерные изображения из одного двумерного всего за 5 секунд. Открытие обещает революцию в 3D-моделировании.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Представьте, что у вас есть обычное фото, и вы хотите увидеть, как объект на нем выглядит в трех измерениях, как будто это настоящий предмет, который можно рассмотреть со всех сторон. Большая модель реконструкции (LRM) делает именно это: преобразует плоскую картинку в трехмерную модель.

LRM, разработанная Иконг Хонгом, основана на масштабируемой нейронной сети, содержащей миллион наборов данных с 500 миллионами параметров, включая изображения, 3D-формы и видео. Это позволяет ей создавать 3D-модель всего за 5 секунд, что очень быстро по сравнению с традиционными методами 3D-моделирования, которые могут занимать часы или даже дни.

В начале развития программного обеспечения для 3D-изображений, оно эффективно работало только с определенными типами объектов, у которых формы и структуры были заранее известны. Затем DALL-E и Stable Diffusion добились значительного прогресса. Эти программы использовали 2D диффузионные модели, которые могли создавать изображения с разных точек зрения. Это стало возможным благодаря их способности обобщать — то есть применять знания, полученные из одних данных, к разнообразным сценариям. Однако даже они не могли свободно создавать новые, непредвиденные типы изображений или объектов, которые выходили за рамки их обучения.

LRM обогнала конкурентов, потому что использует огромную базу данных параметров изображений и предсказывает нейронное излучающее поле (NeRF). Эта технология позволяет создавать детализированные трехмерные объекты из серии двухмерных фотографий. Для этого нейросеть обучают интерпретировать свет и цвет, присутствующие на фотографиях, чтобы отобразить их в реалистичных 3D-изображениях.

Большая модель реконструкции найдет применение во многих сферах, включая дополненную и виртуальную реальность, игровую индустрию, кинематографическую анимацию и промышленный дизайн. Она позволяет воссоздавать реалистичные 3D-изображения из 2D-фотографий, даже если они имеют низкое разрешение.