Hermes 4 включает три модели размером 14, 70 и 405 млрд параметров. Они используют механизм «гибридных рассуждений»: модель может давать быстрые ответы или разворачивать подробный пошаговый анализ внутри тегов <think>…</think>, позволяя пользователю видеть ход мыслей. Это обеспечивает удобное переключение между скоростью и глубиной обработки информации.
В математических тестах Hermes 4 достигла уровня самых дорогих коммерческих разработок: крупнейшая версия (405B) набрала 96,3% в MATH-500, 81,9% в AIME’24 и 78,1% в AIME’25. Модель также показала 70,5% в GPQA Diamond (точные науки), и 61,3% в LiveCodeBench (программирование). В бенчмарке RefusalBench, который Nous Research разработала для оценки склонности ИИ к отказам, Hermes 4 показала 57,1% — в разы выше Gemini 2.5 Pro (23,24%), GPT-4o (17,67%) и Claude Sonnet 4 (17%).
Nous Research сознательно отказалась от встроенных инструментов цензуры, подчеркнув, что именно пользователь, а не компания, должен определять границы допустимого контента.
За высокой производительностью стоит особый подход к обучению. Важнейший компонент — система DataForge, которая генерирует синтетические данные с помощью направленного ациклического графа (DAG). В этом графе каждый узел задает условия и преобразования, которые позволяют пошагово усложнять исходные данные. Например, система может взять обычную статью из «Википедии», превратить её в рэп, а затем сформировать на его основе пары «запрос-ответ». Такой процесс позволяет быстро и в больших масштабах создавать разнообразные обучающие материалы. В итоге было получено около 5 млн примеров общей сложностью 19 млрд токенов. Причём задания на рассуждения специально делались «длиннее» — в среднем в пять раз больше обычных, чтобы вместить детальные цепочки мыслей длиной до 16 тысяч токенов.
Другой элемент — Atropos, среда обучения с подкреплением с сотнями специализированных «тренажёров». Модели отрабатывают математику, программирование, генерацию кода и работу с форматами, а в финальные датасеты попадают только проверенные ответы.
Такой отбор помогает формировать шаблоны рассуждений вместо запоминания готовых решений.
Разработчики также решили проблему чрезмерно длинных рассуждений: «младшая» версия модели с 14 млрд параметров в 60% случаев «уходила в бесконечный цикл», заполняя контекст до максимальной длины без выхода к результату. Чтобы избежать таких сбоев, они добавили второй этап обучения, где модель специально приучалась завершать рассуждения ровно на отметке в 30 000 токенов. Эта техника снизила количество зацикливаний на 65–79%, сохранив при этом почти тот же уровень точности ответов.
Технически обучение проходило на 192 ускорителях NVIDIA B200 с использованием фреймворка TorchTitan. Чтобы справиться с огромным объемом данных, команда применила оптимизированную упаковку выборок и параллельные вычисления. В итоге удалось обработать 3,5 млн примеров с рассуждениями и 1,6 млн — без них. На это ушло 71 616 GPU-часов — примерно 15 дней при полной загрузке оборудования.
Nous Research позиционирует Hermes 4 как «альтернативу гигантам», подчеркивая открытость и свободу пользователей. Веса моделей уже доступны на Hugging Face, API интегрирован в чат-интерфейс, а запуск поддерживают облачные провайдеры Chutes, Nebius и Luminal.