Главная ставка Anthropic — на сложные, длительные агентные сценарии и уверенное владение ПК-средой. На бенчмарке OSWorld, оценивающем практические действия в операционной системе, Sonnet 4.5 показывает 61,4% против 42,2% у Sonnet 4 четыре месяца назад. На SWE-bench Verified, где модели вносят реальные исправления в исходные коды проектов, новая версия выходит в лидеры: компания приводит усреднённый результат 77,2% по десяти прогонам без дополнительного вычислительного бюджета на этапе ответа.
Релиз сопровождается расширением инструментов модели. В Claude Code добавили чекпоинты для отката состояния и обновили терминал; вышло нативное расширение для VS Code. В API появились контекстное редактирование и «память», позволяющие агентам дольше держать курс на одну цель и реализовывать многошаговые планы. В веб- и мобильных приложениях Claude теперь исполняет код и создаёт файлы — таблицы, презентации и документы — прямо в диалоге. Для разработчиков открыт Claude Agent SDK: Anthropic отдаёт «строительные блоки» собственной агентной инфраструктуры — планировщик, управление памятью и координацию подагентов.
Ранние партнёры подтверждают прирост именно на длинных сценариях и больших кодовых базах. «Мы видим state-of-the-art в кодинге и заметные улучшения на задачах с длинным горизонтом», — заявил глава Cursor Майкл Труэлл; в GitHub отмечают «существенный прогресс в многошаговом рассуждении и понимании кода», а команда Devin докладывает о росте метрик планирования на 18% и end-to-end на 12% по сравнению с предыдущими версиями Claude. The Verge указывает, что в одном из прогонов Sonnet 4.5 автономно проработал больше суток, доведя проект мессенджера до завершения без участия человека.
В день анонса модель стала доступна в Amazon Bedrock и получила общую доступность на Google Vertex AI; GitHub начал раскатывать Sonnet 4.5 пользователям Copilot уровней Pro, Pro+, Business и Enterprise, заявляя об улучшении оркестрации инструментов и редактирования контекста. Это дополняет недавнюю волну интеграций Anthropic в продукты Microsoft 365 и подчеркивает смещение фокуса рынка ИИ от «демонстраций» к долговечным рабочим агентам для бизнеса.
Отдельный акцент — безопасность и выравнивание. Anthropic называет Sonnet 4.5 «самой выровненной» фронтир-моделью компании: снижены склонности к угождению, обману и «стремлению к власти», усилены защиты от prompt-инъекций и рисков «компьютерного использования». Релиз проходит под уровнем AI Safety Level 3 с дополнительными фильтрами для CBRN-контента; при ложных срабатываниях пользователям предлагают продолжать диалог на менее рискованной Sonnet 4. Компания публикует развёрнутую system card с методикой тестов, включая параметры прогонов на SWE-bench и оговорки к использованным подсказкам.
В сумме Sonnet 4.5 — не столько очередной виток «гонки бенчмарков», сколько попытка закрепить за ИИ роль исполнительного ассистента, способного неделями сопровождать проект, править код, собирать отчёты и оперировать привычными офисными инструментами. Если заявленные характеристики подтвердятся в широком продакшене, у корпоративных пользователей появится более надёжная альтернатива для реальных процессов — от разработки и аудита безопасности до финансового анализа.