В своем исследовании компания сосредоточилась на «точечно-целевой навигационной модели» — системе, которая может перемещаться по новым средам без какой-либо карты или GPS-датчика. Это технология применяет алгоритмы, имитирующие мыслительные процессы человека в упрощенном формате. В масштабе пары физических объектов разница между таким алгоритмом и тем, что использует GPS, несущественна. Однако, если речь идет об оцифровке зданий или даже городов, новый алгоритм Meta сможет легко обойти конкурентов благодаря меньшему объему обрабатываемых данных.
«AR-очки, которые показывают нам, где мы оставили свои ключи, например, требуют фундаментально новых технологий, которые помогают ИИ понимать расположение и размеры незнакомой, постоянно меняющейся среды без ресурсоемких вычислений и предварительно загруженных карт. Как людям, нам не нужно знать точное местоположение или длину нашего журнального столика, чтобы иметь возможность ходить вокруг него, не натыкаясь на его углы», — объяснили инженеры.
Тот же принцип используется и в новой модели. Эта система использует технику, известную как визуальная адометрия. Она позволяет ИИ определять свое местоположение на основе визуальных данных — например, если робот с поддержкой этой системы подойдет к стене, а затем развернется на 90 градусов, то он запомнит, что двигаться назад больше не имеет смысла и будет учитывать это, прокладывая новый маршрут. В компании утверждают, что эта методика может использоваться для создания эффективных нейронных моделей без аннотаций от человека.
Чтобы еще сильнее повысить эффективность ИИ, Meta создала коллекцию обучающих данных Habitat-Web. В этой библиотеке представлено более 100 тыс. различных методов объектно-целевой навигации. Технология связывает симулятор Habitat, работающий через обычный веб-браузер, с сервисом Mechanical Turk и позволяет дистанционно управлять виртуальными роботами в любом масштабе. По заявления разработчика, агенты ИИ, обученные на этих данных, могут достигать «самых современных результатов» — например, они учатся искать объекты, заглядывая в комнаты и проверяя скрытые углы.
В дополнение команда Meta создала модульный подход «подключи и работай». Это решение помогает роботам обобщать разнообразные наборы семантических навигационных задач с помощью «системы обучения с нулевым опытом». Идея состоит в том, чтобы помочь агентам ИИ адаптироваться на лету без ресурсоемких карт и обучения. Модель один раз «захватывает» основные данные в визуальной навигации, а затем применяет их к различным задачам в трехмерной среде без повторного обучения.
В результатах исследования инженеры рассказали, что новые модели требуют в 12,5 раз меньше обучающих данных и показывают успешные результаты на 14% чаще конкурентов. В перспективе разработчики хотят внедрить такие модели в метавселенную компании, а также в будущие AR/VR-гарнитуры.
* Компания Meta, а также ее продукты Instagram и Facebook признаны экстремистскими и запрещены на территории РФ.