Вместе с обновлением моделей Claude и Haiku компания Anthropic представила новую функцию, позволяющую модели взаимодействовать с компьютером пользователя. Опция Computer Use доступна для версии Claude 3.5 Sonnet через API. Пользователи могут давать модели подробные многоступенчатые инструкции, состоящие из десятков или даже сотен действий — «просмотр экрана», «перемещение курсора», «нажатие кнопок» и «ввод текста». Модель способна выполнять эти действия последовательно, имитируя действия человека за компьютером.
Когда разработчик поручает Claude использовать какое-то программное обеспечение для компьютера и предоставляет ему необходимый доступ, модель изучает скриншоты экрана пользователя, а затем подсчитывает, на сколько пикселей вертикально или горизонтально ему нужно переместить курсор, чтобы нажать в нужном месте. Обучение Claude точному подсчету пикселей было критически важным. Без этого навыка модель не может управлять мышью.
Anthropic заявляет, что 3.5 Sonnet превосходит флагманскую модель OpenAI o1 в кодинге, согласно бенчмарку SWE-bench Verified. Модель демонстрирует способность к самокоррекции и выполнению многошаговых задач, хотя не обучалась этому специально.
Однако при тестировании на задачах бронирования авиабилетов (например, изменение рейса или возврат) модель 3.5 Sonnet выполнила менее половины заданий.
Модель функционирует на основе последовательной съемки скриншотов, а не обработки видео в реальном времени. Это означает, что ИИ может не успевать за быстро меняющимся контентом экрана, например, за кратковременными уведомлениями или анимацией. Кроме того, модель пока не способна выполнять такие распространенные действия с мышью, как перетаскивание объектов. Anthropic признает, что Claude с новой функцией может работать нестабильно допускать ошибки. В качестве примера в блоге приводится случай, когда модель, вместо того чтобы продолжать выполнение поставленной задачи программирования, неожиданно переключилась на просмотр изображений Йеллоустонского национального парка. В этом она удивительно похожа на людей, которые нередко отвлекаются от работы.
Модели с доступом к рабочему столу несут определенную угрозу, например, они могут получить доступ к личной переписке. В Anthropic постарались минимизировать риски злоупотребления моделью 3.5 Sonnet. В частности, компания исключила из обучающей выборки пользовательские скриншоты и запросы, а также ограничила доступ модели к интернету во время обучения. Специальные классификаторы исключают такие действия, как публикация в социальных сетях, регистрация на различных платформах и взаимодействие с государственными ресурсами. У Anthropic также есть возможность ограничить доступ к дополнительным сайтам и функциям «при необходимости», например, для защиты от спама, мошенничества и дезинформации.
Инструмент находится в стадии публичного бета-тестирования. Его используют сотрудники Amazon, Canva, Asana и Notion. По мнению аналитиков, ИИ-агенты могут предоставить компаниям более простой путь к монетизации миллиардов долларов, вложенных в ИИ. Согласно недавнему опросу Capgemini, 10% организаций уже используют ИИ-агентов, а 82% интегрируют их в течение следующих трех лет.