Популярные тесты вроде MMLU уже давно не представляют сложности для современных моделей — многие системы показывают более 90% точности. При этом способности ИИ на уровне сложных академических знаний измерить непросто. HLE задумывался как решение этой проблемы: набор вопросов проверяет не бытовую эрудицию, а глубину рассуждений и навыки анализа. Статья о проекте была опубликована в журнале Nature в январе 2026 года. Сам тест был представлен в начале 2025 года американской некоммерческой организацией Center for AI Safety и компанией Scale AI.
HLE разработан с участием 1000 международных экспертов из более чем 500 учреждений в 50 странах. Чтобы стимулировать участников создавать действительно сложные вопросы, организаторы выделили призовой фонд в $500 000: по $5000 получили авторы 50 лучших заданий, а по $500— следующие 500. Через строгий отбор прошло множество предложений, но в финальный публичный набор включили 2 500 вопросов. Кроме того, сохраняется закрытый «резерв» заданий, который используется для проверки переобучения моделей на уже опубликованных вопросах.
Экзамен включает 14% мультимодальных задач (текст + изображение), 24% вопросов со множественным выбором, а остальное — короткие ответы с автоматической проверкой. Математика составляет 41% заданий, остальные вопросы — физика, биология, информатика и гуманитарные дисциплины. Каждый вопрос сопровождается подробным обоснованием решения, чтобы обеспечить проверяемость и высокую сложность.
На старте HLE в январе 2025 года ведущие модели показали крайне низкую точность: GPT-4o — 2,7%, Claude 3.5 Sonnet — 4,1%, o1 — 8%. Сейчас показатели выросли, но ни одна модель не достигла даже половины уровня эксперта-человека, составляющего примерно 90% Лидирует Gemini 3 Pro Preview с точностью 37,52%, за ней следуют GPT-5 с 31,64% и Claude Opus 4.5 с 25,2%.
Что касается китайских систем, в мультимодальной таблице они показывают низкие результаты: glm-4p5 и glm-4p5-air от Zhipu AI — 8,32% и 8,12% соответственно, что на десятки процентных пунктов ниже лидеров. В текстовой версии (без изображений) показатели выше: Alibaba Qwen3 набрала 15,43%, DeepSeek — 14,04%, но они всё равно уступают американским моделям.
Создатели HLE подчеркивают, что важно учитывать не только процент правильных ответов, но и то, насколько модель умеет оценивать собственную уверенность. В статье в Nature отмечается, что многие системы дают неверные ответы, оставаясь при этом уверенными в себе. Поэтому была введена метрика «ошибка калибровки» (RMS calibration error), которая показывает, насколько заявленная моделью уверенность совпадает с её реальной точностью. Чем меньше значение, тем лучше. В таблице Scale эта метрика указана рядом с точностью: у Gemini 3 Pro Preview она равна 57, у последней версии GPT-5 — 49, тогда как у большинства моделей она превышает 70%. То есть даже сильные системы могут звучать уверенно, но ошибаться.
Более высокие результаты в бенчмарках не следует отождествлять с прогрессом в достижении общего искусственного интеллекта, предостерегают исследователи. Модели оптимизируют свои ответы под структуру теста, а не развивают суждение, как человек.
В отличие от людей, которые учатся, взаимодействуя с окружающим миром и накапливая опыт, ИИ лишь выявляет закономерности в текстах. Для него язык — это не инструмент мышления, а само мышление. Поэтому высокий балл показывает мастерство решения экзаменационных задач, но никак не понимание или автономные интеллектуальные способности. Учитывая эти ограничения, OpenAI, например, разработала показатель под названием GDPval, который оценивает практическую полезность ИИ.

