«Рассуждающая» модель o3-mini разработана для решения задач в области STEM, включая программирование, математику и естественные науки. По заявлению OpenAI, o3-mini превосходит o1-mini по нескольким параметрам. Внешние тестировщики отдавали предпочтение ответам o3-mini более чем в половине случаев, а количество серьезных ошибок в сложных вопросах у нее было на 39% меньше. Кроме того, o3-mini отвечает на 24% быстрее и предоставляет более четкие ответы. Однако преимущество o3-mini над o1 в некоторых областях незначительно. На бенчмарке AIME 2024 o3-mini превосходит o1 всего на 0,3 процентных пункта при максимальном уровне рассуждения. На GPQA Diamond o3-mini не демонстрирует превосходства над o1 даже при самых высоких настройках.
Безопасность o3-mini обеспечивается комплексом мер, включая работу Red Team и методологию «целенаправленного выравнивания». Последняя подразумевает учет политики безопасности OpenAI при генерации ответов. В результате o3-mini превосходит GPT-4o по уровню безопасности и устойчивости к «взлому».
o3-mini уже доступна всем пользователям ChatGPT. Для платных подписчиков ChatGPT Plus и Team предусмотрен лимит в 150 запросов в день, для подписчиков Pro — неограниченный доступ. В течение недели o3-mini станет доступна клиентам Enterprise и Edu.
Чтобы использовать o3-mini, платным пользователям нужно выбрать ее в меню ChatGPT. Те, у кого бесплатная версия, могут активировать o3-mini, нажав кнопку «Reason» («Обоснуй») на панели чата или попросив повторно сгенерировать ответ.
Новая модель также доступна через API OpenAI для избранных разработчиков, но пока без поддержки анализа изображений. Разработчики могут выбирать уровень вычислительной нагрузки (низкий, средний или высокий), чтобы o3-mini работала более интенсивно, исходя из своих задач и требований к скорости обработки. Что касается цены, o3-mini стоит $0,55 за миллион входных токенов и $4,40 за миллион выходных токенов (миллион токенов ≈ 750 000 слов).
Это на 63% дешевле, чем o1-mini, и сравнимо с ценами DeepSeek на модель R1 ($0,14 за миллион входных и $2,19 за миллион выходных токенов).
В ChatGPT o3-mini предлагает два режима работы: стандартный (средний уровень «усилия рассуждения») и o3-mini-high (для платных пользователей). Стандартный режим обеспечивает баланс скорости и точности, в то время как o3-mini-high предназначен для сложных задач, требующих более глубокого анализа. В обоих случаях модель использует поиск для предоставления актуальной информации. Но функция поиска пока дорабатывается.
OpenAI впервые анонсировала o3-mini в декабре вместе с более мощной системой o3. Запуск o3-mini происходит в условиях конкуренции с китайскими компаниями, такими как DeepSeek, которую OpenAI обвиняет в краже интеллектуальной собственности. При этом преимущество o3-mini перед R1 от DeepSeek спорно. На тестах AIME 2024 (понимание инструкций) и SWE-bench Verified (навыки программирования) o3-mini показывает лучшие результаты, но только когда работает на максимуме своих возможностей. На тесте GPQA Diamond (физика, биология и химия) o3-mini уступает R1 при низком уровне «интенсивности рассуждений».