Новый ИИ-агент Microsoft управляет ПО и роботами

Кейсы

Дарина Житова21 февраля, 10:02

Дарина Житова21 февраля, 10:02

Microsoft Research представила Magma — модель ИИ, которая объединяет обработку визуальных и языковых данных для управления программными интерфейсами и роботами. Если она положительно проявит себя во время внешнего тестирования, на ее основе создадут передовой ИИ, который будет работать как в реальном, так и в цифровом мире. Предполагается, что в будущем такой агент сможет взять на себя рутинные задачи владельцев: например, составить меню, заказать продукты, а потом управлять умной кухонной техникой, чтобы приготовить пищу.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Название «Magma» расшифровывается как «Multimodal Agentic Model at Microsoft Research». Microsoft утверждает, что Magma — первая модель, которая не только обрабатывает мультимодальные данные (текст, изображения, видео), но и может работать с ними. Она может управлять интерфейсами или манипулировать физическими объектами. Этот проект — результат сотрудничества Microsoft с другими университетами и исследовательскими центрами.

Цифровой прорыв: как искусственный интеллект меняет медийную рекламу

Похожие проекты, которые использовали большие языковые модели, такие как PALM-E и RT-2 от Google или ChatGPT for Robotics от Microsoft, существовали и раньше. Но Magma отличается тем, что объединяет восприятие и управление в одной модели, в отличие от предыдущих ИИ-систем, которые требовали отдельных моделей для этих задач.

Microsoft позиционирует Magma как шаг к «агентному ИИ», который может самостоятельно разрабатывать планы и выполнять задачи, а не просто отвечать на вопросы. Magma может планировать и выполнять действия, чтобы достичь поставленной цели. Она использует данные из изображений, видео и текстов, чтобы совмещать вербальный, пространственный и временной интеллект для выполнения сложных задач.

Magma отличается от традиционных моделей, таких как GPT-4V, тем, что включает не только вербальный, но и пространственный интеллект. Обычные языковые модели, такие как ChatGPT, могут описывать, что изображено на картинке или предлагать пошаговую инструкцию. Но они не способны сами «двигаться» в интерфейсе или управлять объектами. Magma же объединяет зрительное восприятие с возможностью действовать на основе пространственных связей между объектами.

Magma может понимать, где расположены кнопки и элементы интерфейса, и нажимать их в нужном порядке. Например, если дать команду «отправь письмо в Gmail», она сможет:

Найти кнопку «Написать».

Переместить курсор в поле «Кому».

Ввести текст письма.

Нажать «Отправить».

Если робот с Magma должен пройти по комнате, он поймет, где есть препятствия, и построит маршрут. Например, если перед ним стоит стул, он обойдет его, а не пойдет прямо.

Иными словами, обычные ИИ работают с текстом и изображениями, но не могут использовать их для действий. Magma не просто анализирует картинку с кнопками или объекты на столе — она принимает решения о том, как с ними взаимодействовать, и выполняет эти действия.

В Magma есть два ключевых компонента: Set-of-Mark и Trace-of-Mark. Первый помогает ИИ распознавать объекты, с которыми можно взаимодействовать, например, кнопки на экране или предметы, которые можно взять роботом. Второй компонент обучается на видео данных распознавать и воспроизводить движения.

Microsoft утверждает, что Magma показывает хорошие результаты в тестах, например, в задаче по навигации по интерфейсу и управлению роботами. Она превзошла другие модели, такие как OpenVLA, в нескольких тестах по робототехнике. Однако Magma все еще не идеальна. Ей тяжело принимать сложные решения, которые требуют нескольких шагов.

Microsoft планирует выпустить код Magma на GitHub, чтобы другие исследователи могли продолжить работу над этой моделью. Если Magma оправдает ожидания, она позволит Microsoft создавать ИИ, который может не только работать с текстом, но и выполнять реальные задачи: управлять роботами, программами и техникой.

Magma также показывает, как быстро меняется культура ИИ и общественное восприятие этой технологии. Хотя еще несколько лет назад разговоры о ИИ-агентах пугали людей, сейчас такие исследования становятся обычным явлением. Публика больше не опасается, что ИИ может захватить мир, а ждет, когда роботам можно будет делегировать уборку и готовку.

Также по теме

Кейсы

Скорость загрузки Starlink резко упала у пользователей в США и Канаде

Кейсы

Новый сверхскоростной PAT-сканер изменит диагностику и лечение многих заболеваний

Кейсы

В Германии получили литий из геотермальных вод

Кейсы

Xpeng AeroHT испытала аэротакси Х2 над Пекином

Новости СМИ2