OpenAI выпустила новую модель GPT-4.5

Кейсы

Екатерина Шемякинская28 февраля 2025 г., 11:23

Екатерина Шемякинская28 февраля 2025 г., 11:23

OpenAI представила GPT-4.5 — свою крупнейшую на сегодняшний день модель, которая станет последней версией, не использующей технологии рассуждений. Разработчики утверждают, что она ведет естественные разговоры, лучше понимает нюансы и контекст, а также более эмпатична. Генеральный директор OpenAI Сэм Альтман отметил, что GPT-4.5 «ощущается как вдумчивый собеседник» и удивляет качеством советов. Тесты показывают снижение уровня галлюцинаций и улучшение производительности в ряде задач. Высокая стоимость API и отсутствие революционных изменений вызвали неоднозначную реакцию сообщества.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

GPT-4.5 использует методы неконтролируемого обучения, как и предыдущие GPT. Исследователи OpenAI утверждают, что модель улучшила «понимание мира» благодаря тренировке на данных, сгенерированных меньшими моделями. Предварительное обучение проводилось параллельно в нескольких дата-центрах. OpenAI нарастила объемы данных и вычислительную мощность во время этого процесса, в результате производительность ИИ заметно увеличилась.

Ученые создали квантовую вселенную, в которой время возникло само по себе

OpenAI представила GPT-4.5 в режиме исследовательского превью, чтобы оценить его возможности и ограничения. Компания подчеркивает, что GPT-4.5 — не замена GPT-4o, используемой в API и ChatGPT.

Хотя GPT-4.5 поддерживает загрузку файлов и изображений, а также инструмент Canvas, в нем отсутствует реалистичный двусторонний голосовой режим.

GPT-4.5 более производительна, чем GPT-4o и многие другие модели. На тесте SimpleQA, проверяющем точность ответов на фактические вопросы, GPT-4.5 превосходит GPT-4o, o1 и o3-mini. Еще GPT-4.5 гораздо меньше галлюцинирует (37,1% против 61,8% у GPT-4o). На бенчмарке SWE-Bench Verified, оценивающем навыки программирования, GPT-4.5 соответствует GPT-4o и o3-mini, но уступает DeepResearch от OpenAI и Claude 3.7 Sonnet от Anthropic. На тесте SWE-Lancer, который проверяет способность разрабатывать программные функции, GPT-4.5 превосходит GPT-4o и o3-mini, но все же отстает от DeepResearch.

GPT-4.5 не достигает производительности ведущих «рассуждающих» моделей, таких как o3-mini, R1 от DeepSeek и Claude 3.7 Sonnet, на сложных академических бенчмарках, таких как AIME и GPQA. Но GPT-4.5 соответствует или превосходит ведущие модели без функции рассуждения на тех же тестах.

OpenAI также утверждает, что GPT-4.5 качественно отличается от других моделей в областях, которые не могут оценить бенчмарки. Например, она лучше понимает намерения человека, отвечает более тепло и естественно, а также хорошо справляется с творческими задачами, например, письмом и дизайном.

В одном из тестов GPT-4.5 и двух других моделей попросили отреагировать на фразу: «Я тяжело переживаю провал на экзамене». Хотя GPT-4o и o3-mini предоставили полезную информацию, ответ GPT-4.5 оказался наиболее эмпатичным.

Пользователи ChatGPT Pro ($200 в месяц) могут выбрать GPT-4.5 на сайте. На следующей неделе доступ откроется подписчикам Plus и Team. Цены на GPT-4.5 через API OpenAI для сторонних разработчиков, желающих создавать приложения на основе этой модели, кажутся чрезмерно высокими: $75/$180 за миллион токенов ввода/вывода по сравнению с $2,50/$10 для GPT-4o. А с учетом недавно выпущенных конкурирующих моделей — от Claude 3.7 до Gemini 2 Pro — возникает вопрос, оправданы ли такие расценки.

Выпуск GPT-4.5 вызвал неоднозначную реакцию. Некоторые пользователи отметили незначительные улучшения в тестах на понимание языка и программировании по сравнению с другими моделями. Профессор Уортонской школы Итан Моллик назвал GPT-4.5 «очень странной и интересной моделью», которая красиво пишет, но иногда «ленится» при сложных задачах. Андрей Карпатый, соучредитель OpenAI, сравнил GPT-4.5 с выходом GPT-4, отметив потенциал, но подчеркнув, что улучшения не революционны, особенно в логике и математике. Многие задались вопросом, зачем выпускать модель с высокой стоимостью, но ограниченной мощностью. Однако Аарон Леви из Box заявил об успешном использовании GPT-4.5 для извлечения данных из корпоративных документов, где она превзошла GPT-4o.

Также по теме

Кейсы

5 проверенных стратегий увеличения продаж на маркетплейсах: опыт российского и американского рынков

Кейсы

ИИ генерирует неотличимые от настоящих изображения моделей в одежде

Кейсы

Zap Energy добилась рекордно высокого давления плазмы

Кейсы

IBM выпустила квантовый процессор «Кондор» с 1121 кубитами

Новости СМИ2