Достижением исследователей стала так называемая композиционная генерализация — способность комбинировать уже освоенные навыки для решения новых задач. Например, модель может использовать незнакомые кухонные приборы или обучать робота складыванию белья, даже если в обучающих данных не было подобных примеров. Ранее такие возможности считались характерными скорее для языковых моделей, чем для робототехнических систем.
Модель относится к классу «зрение-язык-действие» (VLA) и управляет роботами, опираясь на мультимодальные данные. Она обрабатывает текстовые инструкции, визуальные сигналы и контекст выполнения задачи, что позволяет ей действовать гибко и учитывать особенности окружающей среды. При этом π 0.7 показывает высокую точность манипуляций и стабильность выполнения сложных операций.
Новая система подсказок при обучении описывает не только саму задачу, но и способ её выполнения. В процессе тренировки модель получает текстовые инструкции, метаданные (например, требуемую скорость или качество), тип управления и визуальные подцели — изображения того, как должен выглядеть промежуточный результат. Это позволяет объединять разнородные данные в одну систему. Такая архитектура делает возможным использование более широкого датасета. Даже менее качественные или неполные данные могут быть включены в обучение за счёт соответствующей разметки, что повышает масштабируемость модели.
В экспериментах модель показала способность осваивать новые задачи с помощью языковых инструкций. Например, при работе с аэрогрилем робот сначала выполнял действия с ошибками, но после пошаговых объяснений справлялся заметно лучше, а затем мог выполнять задачу автономно. Это указывает на возможность «обучения через язык» — подхода, при котором инструкции становятся инструментом программирования поведения.
Модель способна переносить навыки между разными роботами. В одном из тестов π 0.7 управляла двуручной промышленной системой UR5e при складывании одежды, хотя такие данные не использовались при обучении. Эффективность модели оказалась на уровне профессиональных операторов, только начавших работу с этой установкой.
Публикация исследования последовала за сообщениями Bloomberg о планах Physical Intelligence привлечь порядка $1 млрд. Ожидается, что по итогам раунда оценка компании превысит $11 млрд — это почти вдвое больше предыдущего показателя в $5,6 млрд, зафиксированного в ходе привлечения $600 млн всего несколько месяцев назад.

