GPT-4.5 использует методы неконтролируемого обучения, как и предыдущие GPT. Исследователи OpenAI утверждают, что модель улучшила «понимание мира» благодаря тренировке на данных, сгенерированных меньшими моделями. Предварительное обучение проводилось параллельно в нескольких дата-центрах. OpenAI нарастила объемы данных и вычислительную мощность во время этого процесса, в результате производительность ИИ заметно увеличилась.
OpenAI представила GPT-4.5 в режиме исследовательского превью, чтобы оценить его возможности и ограничения. Компания подчеркивает, что GPT-4.5 — не замена GPT-4o, используемой в API и ChatGPT.
Хотя GPT-4.5 поддерживает загрузку файлов и изображений, а также инструмент Canvas, в нем отсутствует реалистичный двусторонний голосовой режим.
GPT-4.5 более производительна, чем GPT-4o и многие другие модели. На тесте SimpleQA, проверяющем точность ответов на фактические вопросы, GPT-4.5 превосходит GPT-4o, o1 и o3-mini. Еще GPT-4.5 гораздо меньше галлюцинирует (37,1% против 61,8% у GPT-4o). На бенчмарке SWE-Bench Verified, оценивающем навыки программирования, GPT-4.5 соответствует GPT-4o и o3-mini, но уступает DeepResearch от OpenAI и Claude 3.7 Sonnet от Anthropic. На тесте SWE-Lancer, который проверяет способность разрабатывать программные функции, GPT-4.5 превосходит GPT-4o и o3-mini, но все же отстает от DeepResearch.
GPT-4.5 не достигает производительности ведущих «рассуждающих» моделей, таких как o3-mini, R1 от DeepSeek и Claude 3.7 Sonnet, на сложных академических бенчмарках, таких как AIME и GPQA. Но GPT-4.5 соответствует или превосходит ведущие модели без функции рассуждения на тех же тестах.
OpenAI также утверждает, что GPT-4.5 качественно отличается от других моделей в областях, которые не могут оценить бенчмарки. Например, она лучше понимает намерения человека, отвечает более тепло и естественно, а также хорошо справляется с творческими задачами, например, письмом и дизайном.
В одном из тестов GPT-4.5 и двух других моделей попросили отреагировать на фразу: «Я тяжело переживаю провал на экзамене». Хотя GPT-4o и o3-mini предоставили полезную информацию, ответ GPT-4.5 оказался наиболее эмпатичным.
Пользователи ChatGPT Pro ($200 в месяц) могут выбрать GPT-4.5 на сайте. На следующей неделе доступ откроется подписчикам Plus и Team. Цены на GPT-4.5 через API OpenAI для сторонних разработчиков, желающих создавать приложения на основе этой модели, кажутся чрезмерно высокими: $75/$180 за миллион токенов ввода/вывода по сравнению с $2,50/$10 для GPT-4o. А с учетом недавно выпущенных конкурирующих моделей — от Claude 3.7 до Gemini 2 Pro — возникает вопрос, оправданы ли такие расценки.
Выпуск GPT-4.5 вызвал неоднозначную реакцию. Некоторые пользователи отметили незначительные улучшения в тестах на понимание языка и программировании по сравнению с другими моделями. Профессор Уортонской школы Итан Моллик назвал GPT-4.5 «очень странной и интересной моделью», которая красиво пишет, но иногда «ленится» при сложных задачах. Андрей Карпатый, соучредитель OpenAI, сравнил GPT-4.5 с выходом GPT-4, отметив потенциал, но подчеркнув, что улучшения не революционны, особенно в логике и математике. Многие задались вопросом, зачем выпускать модель с высокой стоимостью, но ограниченной мощностью. Однако Аарон Леви из Box заявил об успешном использовании GPT-4.5 для извлечения данных из корпоративных документов, где она превзошла GPT-4o.