Название «Magma» расшифровывается как «Multimodal Agentic Model at Microsoft Research». Microsoft утверждает, что Magma — первая модель, которая не только обрабатывает мультимодальные данные (текст, изображения, видео), но и может работать с ними. Она может управлять интерфейсами или манипулировать физическими объектами. Этот проект — результат сотрудничества Microsoft с другими университетами и исследовательскими центрами.
Похожие проекты, которые использовали большие языковые модели, такие как PALM-E и RT-2 от Google или ChatGPT for Robotics от Microsoft, существовали и раньше. Но Magma отличается тем, что объединяет восприятие и управление в одной модели, в отличие от предыдущих ИИ-систем, которые требовали отдельных моделей для этих задач.
Microsoft позиционирует Magma как шаг к «агентному ИИ», который может самостоятельно разрабатывать планы и выполнять задачи, а не просто отвечать на вопросы. Magma может планировать и выполнять действия, чтобы достичь поставленной цели. Она использует данные из изображений, видео и текстов, чтобы совмещать вербальный, пространственный и временной интеллект для выполнения сложных задач.
Magma отличается от традиционных моделей, таких как GPT-4V, тем, что включает не только вербальный, но и пространственный интеллект. Обычные языковые модели, такие как ChatGPT, могут описывать, что изображено на картинке или предлагать пошаговую инструкцию. Но они не способны сами «двигаться» в интерфейсе или управлять объектами. Magma же объединяет зрительное восприятие с возможностью действовать на основе пространственных связей между объектами.
Magma может понимать, где расположены кнопки и элементы интерфейса, и нажимать их в нужном порядке. Например, если дать команду «отправь письмо в Gmail», она сможет:
Если робот с Magma должен пройти по комнате, он поймет, где есть препятствия, и построит маршрут. Например, если перед ним стоит стул, он обойдет его, а не пойдет прямо.
Иными словами, обычные ИИ работают с текстом и изображениями, но не могут использовать их для действий. Magma не просто анализирует картинку с кнопками или объекты на столе — она принимает решения о том, как с ними взаимодействовать, и выполняет эти действия.
В Magma есть два ключевых компонента: Set-of-Mark и Trace-of-Mark. Первый помогает ИИ распознавать объекты, с которыми можно взаимодействовать, например, кнопки на экране или предметы, которые можно взять роботом. Второй компонент обучается на видео данных распознавать и воспроизводить движения.
Microsoft утверждает, что Magma показывает хорошие результаты в тестах, например, в задаче по навигации по интерфейсу и управлению роботами. Она превзошла другие модели, такие как OpenVLA, в нескольких тестах по робототехнике. Однако Magma все еще не идеальна. Ей тяжело принимать сложные решения, которые требуют нескольких шагов.
Microsoft планирует выпустить код Magma на GitHub, чтобы другие исследователи могли продолжить работу над этой моделью. Если Magma оправдает ожидания, она позволит Microsoft создавать ИИ, который может не только работать с текстом, но и выполнять реальные задачи: управлять роботами, программами и техникой.
Magma также показывает, как быстро меняется культура ИИ и общественное восприятие этой технологии. Хотя еще несколько лет назад разговоры о ИИ-агентах пугали людей, сейчас такие исследования становятся обычным явлением. Публика больше не опасается, что ИИ может захватить мир, а ждет, когда роботам можно будет делегировать уборку и готовку.