Большие языковые модели (БЯМ) умеют предсказывать следующее слово в предложении. Однако по сравнению со многими другими БЯМ, o4-mini и его аналоги вроде Gemini 2.5 Flash обучены на специализированных наборах данных с более сильным подкреплением. Такой подход позволяет создать чат-бота, способного гораздо глубже погружаться в сложные математические задачи, чем традиционные БЯМ, пишет Scientific American.
Для измерения прогресса o4-mini компания OpenAI поручила сторонней организации Epoch AI составить 300 математических задач, решения которых прежде не публиковались. Современные БЯМ уже способны правильно отвечать на сложные математические вопросы, однако подобранные Epoch AI вопросы оказались сложны для передовых БЯМ — никто из них не решил больше 6 задач, то есть не преодолел 2%. Но o4-mini показала радикально другой результат.
Исследование, возглавлять которое Epoch AI пригласила Эллиота Глейзера, началось в сентябре 2024 года. 300 математических задачи для o4-mini были поделены на три уровня сложности — уровня бакалавриата, магистратуры и исследовательского уровня. К апрелю 2025 года Глейзер выяснил, что o4-mini может решить около 20% задач. Четвертый уровень составляли задачи, сложные даже для профессоров математики. Ученые, которые участвовали в исследовании, должны были подписать соглашение о неразглашении, чтобы исключить возможность случайной утечки и преждевременного знакомства модели ИИ с этими задачами.
17–18 мая участники эксперимента собрались в Беркли, чтобы проверить, как o4-mini ответит на последний блок вопросов. 30 ученых были разделены на группы по шесть человек. В течение двух дней они соревновались друг с другом, придумывая задачи, которые они могли бы решить, но которые сбили бы с толку чат-бота.
Хотя ученым в конечном итоге удалось найти десять вопросов, которые поставили чат-бота в тупик, исследователи были поражены тем, насколько далеко продвинулся ИИ за год. Хэ Янхуэй, математик из Лондонского института математических наук и один из участников проекта сравнил уровень o4-mini с как минимум очень толковым аспирантом. А по скорости поиска решений он значительно превосходил профессионального математика: там, где эксперту-человеку потребовались бы недели или месяцы на решение, у модели ушло всего несколько минут.
Прогресс ИИ вызывает, помимо восхищения технологией, и тревогу. Участники исследования выразили обеспокоенность тем, что пользователи станут слишком доверять результатам o4-mini.
«Есть доказательство по индукции, доказательство от противного, а есть и доказательство устрашением, — сказал Хэ. — Если вы произносите что-то достаточно авторитетно, люди просто боятся возражать. Я думаю, o4-mini освоил доказательство устрашением; он говорит всё с большой уверенностью».
Под конец участники исследования начали размышлять о том, каким может быть будущее математики. Обсуждения перешли к «пятому уровню» — вопросам, которые не под силу решить даже лучшим математикам. Если ИИ достигнет этого уровня, роль математиков резко изменится. В связи с этим ключом к сохранению математики для будущих поколений станет развитие креативности в высшем образовании.
Команда ученых из Стэнфордской высшей школе бизнеса разработала недавно чат-бот для анализа инвестиционных стратегий, чтобы понять, насколько ИИ в состоянии улучшить работу управляющих паевыми инвестиционными фондами, используя только общедоступную информацию. Результаты оказались настолько впечатляющими, что исследователи целый год искали ошибку в своих расчетах, но так и не нашли. ИИ-аналитик превзошел 93% управляющих в среднем на 600%.