DeepMind — это финансируемая Alphabet компания, которая ранее с помощью алгоритма AlphaGo разбила в пух и прах мастеров игры в го, вариативную настолько, что методики перебора в ней не работают. В прошлом году вторая созданная DeepMind нейросеть обыграла AlphaGo после нескольких недель самостоятельного обучения. Новое достижение — такого же грандиозного калибра.
Для людей достраивать невидимые части и додумывать полную картину — естественная функция мозга, необходимая дли выживания, отмечает Spectrum. Необязательно видеть медведя целиком, чтобы осознать опасность и пытаться сбежать. Под человеком в сидячей позе, скорее всего, будет стул. А столб у обочины может скрывать подъезжающий автомобиль.
Однако для ИИ воссоздать полную картину по ее фрагментам исходя из предыдущего опыта было невозможным — до этого дня. Результаты обучения нейросети DeepMind обнародовала на своем сайте. В публикации несколько GIF-анимаций, которые показывают процесс рендеринга трехмерных моделей по их изображениям. Для воссоздания отдельных фигурок нейросети иногда хватает одной картинки, для сложных по конфигурации помещений с геометрическими объектами используется до пяти. Также новый ИИ с успехом прошел тест на объектах Шепарда-Метцлера — методике, которая используется для проверки того, насколько успешно человек может мысленно «вращать» предметы различной формы.
Помимо корпоративного блога, подход описан в статье в журнале Science.
Для реконструкции фактически использованы две связанных нейросети. Одна из них представляет возможное трехмерное окружение исходя из плоских изображений, а вторая — создает максимально удовлетворяющую условиям модель с объектами подходящей формы и размера, «обтягивая» их текстурами.
Новый метод может преобразить и обучение алгоритмов, и их практическое использование. Futurism напоминает, что сейчас одна из самых длительных, мучительных и неизбежных частей тренировки ИИ в части распознавания образов — объяснение, что же именно изображено на картине и где границы каждого объекта. Вероятно, по трехмерной модели, где сущности отделены одна от другой, ИИ сможет понять это и самостоятельно.
Практическое приложение новой технологии в DeepMind пока не обсуждают. Но способность свободно достраивать картину мира может сделать машины более эффективными в целом ряде сфер: автономном вождении, помощи по дому и даже в реконструкции преступлений по фотографиям места действия.