Появление Nemotron 3 Ultra связано с одной из главных проблем современных ИИ-агентов. По мере усложнения задач агенты вынуждены постоянно обмениваться большими объемами данных, хранить историю действий, координировать работу субагентов и передавать промежуточные результаты. Это приводит к быстрому росту числа обрабатываемых токенов, увеличению вычислительных расходов и риску потери фокуса при выполнении длинных цепочек операций.
Новая модель построена на архитектуре «смеси экспертов» (Mixture of Experts) и содержит 550 млрд параметров, из которых одновременно активны 55 млрд. В NVIDIA отмечают, что Nemotron 3 Ultra предназначена прежде всего для сложных этапов агентных процессов: долгосрочного планирования, анализа больших массивов данных, проверки инженерных проектов, программирования и принятия архитектурных решений в ходе продолжительных сессий работы.
Nemotron 3 Ultra демонстрирует конкурентоспособные показатели в ряде специализированных бенчмарков для агентных систем. В частности, модель показала 91% в тесте PinchBench, предназначенном для оценки поведения агентов, и 95% в испытаниях на работу с контекстом объемом до 1 млн токенов. Кроме того, разработчики заявляют о пятикратном преимуществе по скорости вывода по сравнению с рядом других открытых моделей аналогичного класса.
Особое внимание в NVIDIA уделяют экономической эффективности. По данным компании, в тестах SWE-bench и Terminal Bench 2.0 новая модель использовала меньше токенов для достижения результата, чем сопоставимые конкуренты. Это позволило сократить стоимость выполнения агентных задач на 30%, что важно для корпоративных внедрений и длительно работающих автономных систем.
Для достижения таких показателей разработчики внедрили ряд архитектурных новшеств. Среди них — гибридные слои Mamba Transformer для эффективной работы с длинным контекстом, технология LatentMoE для более точной маршрутизации запросов между экспертами модели и механизм прогнозирования нескольких токенов одновременно (Multi-Token Prediction), ускоряющий генерацию длинных ответов. Также модель обучалась по новой схеме MOPD, при которой она получает обратную связь сразу от 10 специализированных моделей-учителей.
Вместе с Nemotron 3 Ultra NVIDIA выпустила две дополнительные открытые модели. Nemotron 3.5 Content Safety предназначена для выявления опасного или запрещенного контента на 12 языках и поддерживает 23 категории безопасности. Вторая модель, Nemotron 3.5 ASR, ориентирована на распознавание речи в реальном времени и поддерживает более 40 языков при задержке менее 100 миллисекунд, что позволяет использовать ее в голосовых ИИ-агентах.
Все модели семейства распространяются по новой лицензии OpenMDW-1.1, разработанной Linux Foundation для открытых ИИ-систем. NVIDIA также открыла веса моделей, обучающие данные и инструменты для дообучения. Nemotron 3 Ultra уже доступна через Hugging Face, NVIDIA NIM и ряд облачных платформ, включая Amazon SageMaker, Google Cloud и Microsoft Foundry.

