Hitech logo

Кейсы

Все модели ИИ провалили новейший тест на общий интеллект

TODO:
Дарина Житова25 марта, 15:08

Современные ИИ-модели провалили новый тест на общий интеллект ARC-AGI-2, разработанный некоммерческой организацией Arc Prize Foundation. Лучшие результаты моделей не превысили 1,3%, тогда как средний результат людей составил около 60%. Об этом заявил исследователь искусственного интеллекта и сооснователь фонда Франсуа Шолле, наиболее известный как создатель библиотеки глубокого обучения Keras.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Тест ARC-AGI-2 измеряет способность быстро адаптироваться к новым задачам, а не просто использовать уже известные данные. Испытуемым нужно распознавать визуальные паттерны среди цветных квадратов и генерировать правильную ответную комбинацию. ARC-AGI-2 разработан так, чтобы исключить возможность решения задач за счёт простой переборной мощности компьютера. У первой версии теста была такая проблема: ИИ мухлевали, очень быстро перебирая варианты.

Согласно результатам, даже новейшие модели, такие как o1-pro от OpenAI и R1 от DeepSeek, смогли правильно решить только от 1% до 1,3% задач. Другие известные модели, включая GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash, достигли результата около 1%. Лучшая на данный момент модель OpenAI — o3, которая показала 75,7% на старом тесте ARC-AGI-1 — набрала всего 4% в новом тесте, при этом затраты на вычисления для каждого задания составили около $200.

Для сравнения способностей ИИ с людьми в тестировании участвовали более 400 человек. Людям разрешалось совершать до 2 попыток на задачу, и каждый вопрос решили минимум двое человек. В среднем люди успешно справились с 60% задач ARC-AGI-2.

Это высокий результат, если учитывать, что тест создавали в первую очередь для ИИ. Он измеряет вполне человеческие когнитивные способности, однако умноженные на мощности сотен и тысяч графических ускорителей.

Разработчики объясняют такую разницу сложностями, которые испытывают ИИ при решении задач, требующих интерпретации символов и применения сразу нескольких правил. Машины часто не способны осмыслить символы глубже, чем просто набор визуальных признаков, и плохо адаптируют правила под разный контекст задач.

Эти проблемы не решаются путём увеличения вычислительной мощности и требуют принципиально новых подходов.

Франсуа Шолле подчёркивает, что ключевое отличие нового теста — это метрика эффективности. Теперь важно не только умение решать задачи, но и то, как быстро и с какими затратами модель способна приобрести и использовать новые навыки. Сооснователь фонда Грег Камрадт добавляет: «Интеллект — это не просто способность решать проблемы. Важно учитывать, насколько эффективно ИИ способен осваивать и применять свои умения».

Одновременно с запуском нового теста фонд Arc Prize объявил конкурс ARC Prize 2025. Разработчикам предстоит создать модель, способную решить минимум 85% задач ARC-AGI-2 при затратах на вычисления не более $0,42 за каждую задачу. Конкурс должен стартовать на платформе Kaggle в ближайшее время.

Появление теста ARC-AGI-2 связано с отсутствием подходящих методик оценки общего интеллекта искусственного интеллекта. Сооснователь Hugging Face Томас Вольф ранее заявил TechCrunch, что в области ИИ не хватает тестов, измеряющих ключевые качества общего интеллекта, включая креативность и умение обобщать знания.