Anthropic представила Claude Sonnet 4.5 — «лучший в мире» ИИ для программирования

Тренды

Елена Верещагина30 сентября, 09:52

Елена Верещагина30 сентября, 09:52

Anthropic представила Claude Sonnet 4.5 — новую флагманскую модель, ориентированную на программирование, построение ИИ-агентов и решение сложных задач. Внутренние испытания показали, что Sonnet 4.5 может автономно выполнять многошаговые задачи более 30 часов подряд; в одном из демонстрационных прогонов модель сгенерировала порядка 11 000 строк кода и остановилась лишь после завершения проекта «похожего на Slack». В инженерных бенчмарках она вышла в лидеры, показав заметный скачок в понимании программного кода, математических вычислениях и управлении компьютером. Одновременно Anthropic открыла доступ к набору для разработки агентных систем (Claude Agent SDK) и расширила функциональность приложений Claude — от исполнения кода до создания файлов, при этом цены остались на уровне предыдущего поколения (3-15 долларов за 1 млн токенов).

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Главная ставка Anthropic — на сложные, длительные агентные сценарии и уверенное владение ПК-средой. На бенчмарке OSWorld, оценивающем практические действия в операционной системе, Sonnet 4.5 показывает 61,4% против 42,2% у Sonnet 4 четыре месяца назад. На SWE-bench Verified, где модели вносят реальные исправления в исходные коды проектов, новая версия выходит в лидеры: компания приводит усреднённый результат 77,2% по десяти прогонам без дополнительного вычислительного бюджета на этапе ответа.

Конгрессу США показали видео как НЛО «поглотил» удар ракеты Hellfire

Релиз сопровождается расширением инструментов модели. В Claude Code добавили чекпоинты для отката состояния и обновили терминал; вышло нативное расширение для VS Code. В API появились контекстное редактирование и «память», позволяющие агентам дольше держать курс на одну цель и реализовывать многошаговые планы. В веб- и мобильных приложениях Claude теперь исполняет код и создаёт файлы — таблицы, презентации и документы — прямо в диалоге. Для разработчиков открыт Claude Agent SDK: Anthropic отдаёт «строительные блоки» собственной агентной инфраструктуры — планировщик, управление памятью и координацию подагентов.

Ранние партнёры подтверждают прирост именно на длинных сценариях и больших кодовых базах. «Мы видим state-of-the-art в кодинге и заметные улучшения на задачах с длинным горизонтом», — заявил глава Cursor Майкл Труэлл; в GitHub отмечают «существенный прогресс в многошаговом рассуждении и понимании кода», а команда Devin докладывает о росте метрик планирования на 18% и end-to-end на 12% по сравнению с предыдущими версиями Claude. The Verge указывает, что в одном из прогонов Sonnet 4.5 автономно проработал больше суток, доведя проект мессенджера до завершения без участия человека.

В день анонса модель стала доступна в Amazon Bedrock и получила общую доступность на Google Vertex AI; GitHub начал раскатывать Sonnet 4.5 пользователям Copilot уровней Pro, Pro+, Business и Enterprise, заявляя об улучшении оркестрации инструментов и редактирования контекста. Это дополняет недавнюю волну интеграций Anthropic в продукты Microsoft 365 и подчеркивает смещение фокуса рынка ИИ от «демонстраций» к долговечным рабочим агентам для бизнеса.

Отдельный акцент — безопасность и выравнивание. Anthropic называет Sonnet 4.5 «самой выровненной» фронтир-моделью компании: снижены склонности к угождению, обману и «стремлению к власти», усилены защиты от prompt-инъекций и рисков «компьютерного использования». Релиз проходит под уровнем AI Safety Level 3 с дополнительными фильтрами для CBRN-контента; при ложных срабатываниях пользователям предлагают продолжать диалог на менее рискованной Sonnet 4. Компания публикует развёрнутую system card с методикой тестов, включая параметры прогонов на SWE-bench и оговорки к использованным подсказкам.

В сумме Sonnet 4.5 — не столько очередной виток «гонки бенчмарков», сколько попытка закрепить за ИИ роль исполнительного ассистента, способного неделями сопровождать проект, править код, собирать отчёты и оперировать привычными офисными инструментами. Если заявленные характеристики подтвердятся в широком продакшене, у корпоративных пользователей появится более надёжная альтернатива для реальных процессов — от разработки и аудита безопасности до финансового анализа.

Также по теме

Тренды

Apple откроет сторонним приложениям доступ к NFC

Тренды

Tesla расстреляла Cybertruck из автомата Томпсона

Тренды

Роботакси Cruise в Сан-Франциско перешли на круглосуточный беспилотный режим

Тренды

Крупный эксперимент показал: четырехдневная рабочая неделя выгодна и сотрудникам, и компаниям

Новости СМИ2