Hitech logo

Кейсы

Новая модель помогает роботам решать задачи, которым их никогда не обучали

TODO:
Екатерина ШемякинскаяСегодня, 12:01 PM

Компания из Сан-Франциско Physical Intelligence представила робототехническую модель π 0.7, способную комбинировать освоенные навыки для решения новых задач — от работы с незнакомыми приборами до складывания белья. Модель обучается через языковые инструкции, переносит навыки между разными роботами и показывает точность на уровне человека-специалиста. Публикация совпала с планами Physical Intelligence привлечь $1 млрд инвестиций.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Достижением исследователей стала так называемая композиционная генерализация — способность комбинировать уже освоенные навыки для решения новых задач. Например, модель может использовать незнакомые кухонные приборы или обучать робота складыванию белья, даже если в обучающих данных не было подобных примеров. Ранее такие возможности считались характерными скорее для языковых моделей, чем для робототехнических систем.

Модель относится к классу «зрение-язык-действие» (VLA) и управляет роботами, опираясь на мультимодальные данные. Она обрабатывает текстовые инструкции, визуальные сигналы и контекст выполнения задачи, что позволяет ей действовать гибко и учитывать особенности окружающей среды. При этом π 0.7 показывает высокую точность манипуляций и стабильность выполнения сложных операций.

Новая система подсказок при обучении описывает не только саму задачу, но и способ её выполнения. В процессе тренировки модель получает текстовые инструкции, метаданные (например, требуемую скорость или качество), тип управления и визуальные подцели — изображения того, как должен выглядеть промежуточный результат. Это позволяет объединять разнородные данные в одну систему. Такая архитектура делает возможным использование более широкого датасета. Даже менее качественные или неполные данные могут быть включены в обучение за счёт соответствующей разметки, что повышает масштабируемость модели.

В экспериментах модель показала способность осваивать новые задачи с помощью языковых инструкций. Например, при работе с аэрогрилем робот сначала выполнял действия с ошибками, но после пошаговых объяснений справлялся заметно лучше, а затем мог выполнять задачу автономно. Это указывает на возможность «обучения через язык» — подхода, при котором инструкции становятся инструментом программирования поведения.

Модель способна переносить навыки между разными роботами. В одном из тестов π 0.7 управляла двуручной промышленной системой UR5e при складывании одежды, хотя такие данные не использовались при обучении. Эффективность модели оказалась на уровне профессиональных операторов, только начавших работу с этой установкой.

Публикация исследования последовала за сообщениями Bloomberg о планах Physical Intelligence привлечь порядка $1 млрд. Ожидается, что по итогам раунда оценка компании превысит $11 млрд — это почти вдвое больше предыдущего показателя в $5,6 млрд, зафиксированного в ходе привлечения $600 млн всего несколько месяцев назад.