Эксперимент под названием First Proof был разработан с большой строгостью для проверки финального этапа исследования. Сначала исследователи самостоятельно решили свои задачи, доказав их выполнимость, а затем зашифровали ответы, чтобы исключить возможность их появления в публичных источниках, где их могли бы найти модели ИИ. Задачи в количестве десяти штук были из разных областей математики, включая стохастический анализ, спектральную теорию графов, симплектическую геометрию и алгебраическую топологию.
В качестве подопытных выступали ведущие модели ИИ, включая GPT-5.1 Pro и Gemini 3 Pro. Каждая из них получила лишь одну попытку на решение каждой задачи без дополнительных подсказок или диалога. Результаты оказались неутешительными для машин: ИИ не смог справиться с задачами за одну попытку.
Исследователи пришли к выводу, что современный ИИ пока не обладает необходимой творческой глубиной и интуицией для ориентации в неизведанных исследовательских проблемах. Возможно, это успокоит тех, кто опасается, что ИИ вскоре заменит их.
Ученые планируют превратить First Proof в постоянный эталонный тест, который будет отслеживать прогресс ИИ в решении сложных математических проблем, пишет Phys. В долгосрочной перспективе этот проект поможет создать более формализованную методологию для оценки исследовательского потенциала искусственного интеллекта в фундаментальных науках, отделяя реальные прорывы от простого воспроизведения известных знаний.
Китайская компания DeepSeek представила в конце 2025 года DeepSeekMath V2 — открытую модель искусственного интеллекта для решения сложных математических задач. Она показывает результаты, соответствующие уровню золотой медали Международной математической олимпиады, которую обычно получают лишь около 8% участников.

