Hitech logo

Кейсы

Новая модель Anthropic может управлять ПК как человек

TODO:
Екатерина Смирнова23 октября, 11:13

Компания Anthropic анонсировала новый инструмент, позволяющий ИИ управлять курсором мыши и выполнять задачи на компьютере пользователя. Инструмент доступен в версии Claude 3.5 Sonnet через API. Модель анализирует скриншоты экрана, перемещает курсор и выполняет пошаговые инструкции, имитируя действия человека. Недостатками являются медленная реакция на быстро меняющийся контент и невозможность перетаскивать объекты. Кроме того, ИИ-агенту все еще тяжело даются некоторые задачи, например, бронирование авиабилетов. Инструмент, находящийся в бета-тестировании, уже используется такими компаниями, как Amazon и Canva.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Вместе с обновлением моделей Claude и Haiku компания Anthropic представила новую функцию, позволяющую модели взаимодействовать с компьютером пользователя. Опция Computer Use доступна для версии Claude 3.5 Sonnet через API. Пользователи могут давать модели подробные многоступенчатые инструкции, состоящие из десятков или даже сотен действий — «просмотр экрана», «перемещение курсора», «нажатие кнопок» и «ввод текста». Модель способна выполнять эти действия последовательно, имитируя действия человека за компьютером.

Когда разработчик поручает Claude использовать какое-то программное обеспечение для компьютера и предоставляет ему необходимый доступ, модель изучает скриншоты экрана пользователя, а затем подсчитывает, на сколько пикселей вертикально или горизонтально ему нужно переместить курсор, чтобы нажать в нужном месте. Обучение Claude точному подсчету пикселей было критически важным. Без этого навыка модель не может управлять мышью.

Anthropic заявляет, что 3.5 Sonnet превосходит флагманскую модель OpenAI o1 в кодинге, согласно бенчмарку SWE-bench Verified. Модель демонстрирует способность к самокоррекции и выполнению многошаговых задач, хотя не обучалась этому специально.

Однако при тестировании на задачах бронирования авиабилетов (например, изменение рейса или возврат) модель 3.5 Sonnet выполнила менее половины заданий.

Модель функционирует на основе последовательной съемки скриншотов, а не обработки видео в реальном времени. Это означает, что ИИ может не успевать за быстро меняющимся контентом экрана, например, за кратковременными уведомлениями или анимацией. Кроме того, модель пока не способна выполнять такие распространенные действия с мышью, как перетаскивание объектов. Anthropic признает, что Claude с новой функцией может работать нестабильно допускать ошибки. В качестве примера в блоге приводится случай, когда модель, вместо того чтобы продолжать выполнение поставленной задачи программирования, неожиданно переключилась на просмотр изображений Йеллоустонского национального парка. В этом она удивительно похожа на людей, которые нередко отвлекаются от работы.

Модели с доступом к рабочему столу несут определенную угрозу, например, они могут получить доступ к личной переписке. В Anthropic постарались минимизировать риски злоупотребления моделью 3.5 Sonnet. В частности, компания исключила из обучающей выборки пользовательские скриншоты и запросы, а также ограничила доступ модели к интернету во время обучения. Специальные классификаторы исключают такие действия, как публикация в социальных сетях, регистрация на различных платформах и взаимодействие с государственными ресурсами. У Anthropic также есть возможность ограничить доступ к дополнительным сайтам и функциям «при необходимости», например, для защиты от спама, мошенничества и дезинформации.

Инструмент находится в стадии публичного бета-тестирования. Его используют сотрудники Amazon, Canva, Asana и Notion. По мнению аналитиков, ИИ-агенты могут предоставить компаниям более простой путь к монетизации миллиардов долларов, вложенных в ИИ. Согласно недавнему опросу Capgemini, 10% организаций уже используют ИИ-агентов, а 82% интегрируют их в течение следующих трех лет.