Создание моделей сопровождалось масштабным дообучением в облачном сервисе DGX Cloud. В нём использовали как синтетические данные, сгенерированные Llama Nemotron и другими моделями, так и вручную размеченные наборы, подготовленные совместно с партнёрами. Инференс моделей на ускорителях H100 длился 360 тысяч часов. Разработчики также использовали 45 тысяч часов ручной аннотации. Это обеспечило высокую производительность моделей в математике и программировании. Новый ИИ отлично следует инструкциям и взаимодействует с пользователями через диалоговое окно.
Семейство Llama Nemotron включает 3 варианта: Nano, Super и Ultra. Nano рассчитана на использование в ПК и периферийных устройствах. Super подходит для дата-центров с одним ускорителем, а Ultra обеспечивает максимальную точность при работе с несколькими GPU. Nano и Super уже доступны через платформу NVIDIA NIM, Ultra будет представлена позднее.
Одной из ключевых особенностей стала гибридная система рассуждений: пользователи могут включать или отключать рассуждения в зависимости от сложности запроса. Это позволяет сэкономить ресурсы при простых задачах и задействовать расширенные алгоритмы там, где это необходимо. Подобный подход ранее реализовали Anthropic (Claude 3.7) и IBM (Granite 3.2), однако решения NVIDIA остаются открытыми.
NVIDIA также анонсировала инфраструктуру Agent AI-Q — открытую платформу для интеграции ИИ-агентов в корпоративные процессы. Она обеспечивает взаимодействие агентов с внешними инструментами, интернет-поиском и корпоративными данными, а также предоставляет механизмы контроля и прозрачности. Платформа будет доступна с апреля.
Новые модели уже нашли применение в ряде компаний. Microsoft интегрировала Llama Nemotron в Azure AI Foundry, SAP использует их для усиления возможностей ИИ-ассистента Joule, а ServiceNow и Accenture развивают на их основе продуктивных агентов. Deloitte внедрит модель в платформу Zora AI, а Atlassian и Box сотрудничают с NVIDIA для предоставления клиентам доступа к этим решениям.