Hitech logo

искусственный интеллект

Крошечная рекурсивная модель Samsung превосходит БЯМ конкурентов

TODO:
Георгий Голованов10 октября 2025 г., 14:32

Новая разработка исследователей из Samsung AI ставит под сомнение распространенное в отрасли убеждение в том, что чем больше модель ИИ, тем она, в целом, лучше. Созданная ими «Крошечная рекурсивная модель» (TRM) содержит всего 7 миллионов параметров, однако превосходит в сложных задачах рассуждения большие языковые модели, в тысячи раз превышающие ее по размеру.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Исследование, проведенное Алексией Жоликёр-Мартино из Samsung SAIL Montreal (Канада) и изложенное в статье «Меньше значит больше» (Less is More: Recursive Reasoning with Tiny Networks), представляет принципиально новый подход к решению задач ИИ. В то время как технологические гиганты вкладывают миллиарды в создание все более крупных моделей с сотнями миллиардов параметров, крошечная рекурсивная модель (TRM) Samsung достигает превосходных результатов в невероятно сложных тестах, используя менее 0,01% вычислительных ресурсов.

В тесте ARC-AGI-1, разработанном для измерения истинного гибкого интеллекта в ИИ, модель TRM достигла 44,6% точности, превзойдя гораздо более крупных конкурентов, включая DeepSeek-R1, Google Gemini 2.5 Pro и OpenAI o3-mini. В еще более сложном тесте ARC-AGI-2 TRM набрала 7,8%, превзойдя Gemini 2.5 Pro с его 4,9%, рассказывает Perplexity.

Мастерство модели выходит за рамки абстрактного мышления и решения конкретных задач. В головоломках Sudoku-Extreme TRM, после обучения всего на 1000 примерах, показала точность 87,4%, продемонстрировав выдающиеся способности к обобщению. В задачах навигации в лабиринте ее точность составила 85,3%.

Секрет кроется в рекурсивном подходе TRM к рассуждениям, который точнее отражает человеческий подход к решению задач, чем традиционные модели ИИ. Вместо того, чтобы генерировать ответы за один проход, как это делают большие языковые модели, TRM использует итерационный цикл, непрерывно совершенствуя свои решения. Модель начинает с первоначального ответа, а затем использует внутренний «блокнот» для критики и улучшения своих рассуждений до 16 раз.

Этот подход устраняет критический недостаток современных систем ИИ: тенденцию распространения ранних ошибок на весь процесс решения.

«Представление о том, что для решения сложных задач необходимо полагаться на обширные фундаментальные модели, на обучение которых крупные корпорации потратили миллионы долларов, ошибочно», — написал Жоликёр-Мартино.

Исследование показывает, что именно рекурсивное мышление, а не просто масштабирование, может быть ключом к решению задач абстрактного рассуждения, с которыми не справляются даже ведущие генеративные модели.

В прошлом месяце разработчик китайской БЯМ DeepSeek раскрыл затраты на обучение своей модели R1. Согласно статье в журнале Nature, обучение системы обошлось компании всего в $294 тыс. — намного меньше, чем у американских конкурентов.