Hitech logo

Кейсы

Не просто чат: GPT-5.4 научилась работать с компьютером напрямую

TODO:
Екатерина ШемякинскаяСегодня, 08:37 AM

OpenAI представила новую базовую модель GPT-5.4, ориентированную на профессиональные и технические задачи. Модель стала первой в линейке компании со встроенными возможностями управления компьютером, что позволяет ей взаимодействовать с программным обеспечением, работать сразу в нескольких приложениях и выполнять сложные многоэтапные задачи. Кроме того, система получила расширенные инструменты для работы с документами и кодом, а также поддержку контекстного окна до 1 млн токенов.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

В релиз вошло несколько версий модели. Стандартная версия предназначена для разработчиков и API-интеграций. Версия GPT-5.4 Thinking в ChatGPT ориентирована на задачи, требующие сложного логического анализа. Модель GPT-5.4 Pro рассчитана на пользователей, которым нужна максимальная производительность при выполнении сложных вычислений и аналитических задач.

Одним из ключевых нововведений стала система «поиска инструментов» для разработчиков ИИ-агентов. Ранее модель получала описания всех доступных инструментов в системной подсказке, что увеличивало расход токенов. Теперь она находит нужные инструменты по мере необходимости. По данным компании, это ускоряет работу и снижает стоимость запросов в системах с большими библиотеками функций.

OpenAI также расширила возможности модели для прямого взаимодействия с компьютерами. В Codex и API появились функции, которые позволяют ИИ-агентам работать с программным обеспечением, перемещаться между приложениями и выполнять задачи сразу в нескольких системах. Такие инструменты помогают агентам планировать действия, выполнять многоэтапные процессы и проверять результаты, сохраняя контекст на протяжении всей работы.

В API-версии модель поддерживает контекстное окно до 1 млн токенов, что позволяет системам обрабатывать большие документы и сложные рабочие процессы без потери контекста. Таким образом, слухи о 2 млн токенов контекста не подтвердились. Разработчики также улучшили эффективность модели. GPT-5.4 решает аналогичные задачи, используя значительно меньше токенов, чем предыдущая версия GPT-5.2. Это снижает вычислительные затраты и ускоряет ответы.

Новая модель продемонстрировала рекордные показатели в бенчмарках OSWorld-Verified и WebArena Verified, которые оценивают способность ИИ работать с программным обеспечением и онлайн-инструментами.

Модель также набрала 83% в тесте GDPval, оценивающем задачи интеллектуального труда — анализ, исследования и подготовку текстов. Кроме того, система заняла первое место в бенчмарке APEX-Agents компании Mercor, который проверяет эффективность ИИ в профессиональных областях, включая юриспруденцию и финансы.

Компания также уделила внимание безопасности и прозрачности работы модели. Новая система тестирования проверяет цепочки рассуждений — пошаговые объяснения, которые ИИ формирует при решении задач. По данным OpenAI, версия GPT-5.4 Thinking реже искажает логику и на 33% реже допускает фактические ошибки по сравнению с предыдущим поколением, что делает модель более надёжной для профессионального использования.