Квантование модели — метод, который использют для снижения вычислительных затрат и потребления памяти при запуске и обучении моделей ИИ. Он работает путем преобразования параметров модели, или весов, из форматов высокой точности, таких как 16- и 32-битные числа с плавающей точкой (BF16 и FP32), в форматы с меньшей точностью. Основная задача квантования — уменьшить размер модели, сохранив при этом как можно больше ее возможностей.
В последние годы 8-битные числа с плавающей точкой (FP8) стали популярным отраслевым стандартом, обеспечивая хороший баланс между производительностью и эффективностью. Они значительно снижают вычислительные затраты и потребность в памяти для обучения БЯМ без существенного снижения точности.
Следующим логичным шагом является переход на 4-битные числа с плавающей точкой (FP4), который обещает еще вдвое сократить потребление памяти и дополнительно повысить производительность на современном оборудовании.
Однако этот переход оказался непростым. Существующие 4-битные форматы, такие как MXFP4, часто не могут предложить тот же уровень точности, что и их 8-битные аналоги. Приходится искать компромисс между стоимостью и производительностью.
NVFP4 преодолевает проблемы стабильности и точности, присущие другим методам FP4, благодаря более продуманной архитектуре и целенаправленной методологии обучения. Ключевой проблемой 4-битной точности является ее крайне ограниченный диапазон: она может представлять только 16 различных значений. При преобразовании из высокоточного формата данные могут исказиться, снижая точность модели. NVFP4 использует более сложный подход к многоуровневому масштабированию, обеспечивая «более точное и достоверное представление значений тензора во время обучения», утверждает Nvidia.
Для тестирования метода команда обучила гибридную модель Mamba-Transformer с 12 миллиардами параметров на массиве из 10 триллионов токенов. Затем они сравнили ее производительность с базовой моделью, обученной в формате FP8. Результаты показали, что на протяжении всего процесса потери при обучении и точность выполнения последующих задач модели NVFP4 практически не отличались от модели FP8.
Производительность сохранялась в широком спектре областей, включая логику, математику и задачи, связанные со здравым смыслом, с небольшим падением результатов в тестах программирования на поздних этапах обучения. По словам разработчиков, это первая успешная демонстрация обучения языковых моделей с миллиардами параметров и 4-битной точностью.
Успех NVFP4 показывает, что можно сокращать затраты на мощность логического вывода, используя более компактные модели, без ущерба производительности. А также то, что в будущем стоимость обучения БЯМ может снизиться настолько, что организации смогут обучать собственные модели с нуля, а не только настраивать существующие, пишет Venture Beat.
На днях Nvidia представила новое поколение вычислительных ускорителей Vera Rubin Superchip. Платформа объединяет центральный процессор Vera и два гигантских графических процессора Rubin на одной плате, обеспечивая до 100 петафлопс вычислительной мощности.

