Новый 4-битный метод обучения БЯМ не уступает 8-битному

искусственный интеллект

Георгий ГоловановСегодня, 09:24 AM

Георгий ГоловановСегодня, 09:24 AM

Новый подход к обучению больших языковых моделей (БЯМ), который разработали исследователи из Nvidia, позволяет обучать модели, которые не просто превосходят ведущие 4-битные форматы по стабильности и точности, но достигают уровня производительности 8-битного формата FP8. При этом технология NVFP4 использует вдвое меньше памяти и лишь малую долю вычислительных ресурсов.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Квантование модели — метод, который использют для снижения вычислительных затрат и потребления памяти при запуске и обучении моделей ИИ. Он работает путем преобразования параметров модели, или весов, из форматов высокой точности, таких как 16- и 32-битные числа с плавающей точкой (BF16 и FP32), в форматы с меньшей точностью. Основная задача квантования — уменьшить размер модели, сохранив при этом как можно больше ее возможностей.

Масштабное исследование показало, что витамин D в три раза замедляет старение

В последние годы 8-битные числа с плавающей точкой (FP8) стали популярным отраслевым стандартом, обеспечивая хороший баланс между производительностью и эффективностью. Они значительно снижают вычислительные затраты и потребность в памяти для обучения БЯМ без существенного снижения точности.

Следующим логичным шагом является переход на 4-битные числа с плавающей точкой (FP4), который обещает еще вдвое сократить потребление памяти и дополнительно повысить производительность на современном оборудовании.

Однако этот переход оказался непростым. Существующие 4-битные форматы, такие как MXFP4, часто не могут предложить тот же уровень точности, что и их 8-битные аналоги. Приходится искать компромисс между стоимостью и производительностью.

NVFP4 преодолевает проблемы стабильности и точности, присущие другим методам FP4, благодаря более продуманной архитектуре и целенаправленной методологии обучения. Ключевой проблемой 4-битной точности является ее крайне ограниченный диапазон: она может представлять только 16 различных значений. При преобразовании из высокоточного формата данные могут исказиться, снижая точность модели. NVFP4 использует более сложный подход к многоуровневому масштабированию, обеспечивая «более точное и достоверное представление значений тензора во время обучения», утверждает Nvidia.

Для тестирования метода команда обучила гибридную модель Mamba-Transformer с 12 миллиардами параметров на массиве из 10 триллионов токенов. Затем они сравнили ее производительность с базовой моделью, обученной в формате FP8. Результаты показали, что на протяжении всего процесса потери при обучении и точность выполнения последующих задач модели NVFP4 практически не отличались от модели FP8.

Производительность сохранялась в широком спектре областей, включая логику, математику и задачи, связанные со здравым смыслом, с небольшим падением результатов в тестах программирования на поздних этапах обучения. По словам разработчиков, это первая успешная демонстрация обучения языковых моделей с миллиардами параметров и 4-битной точностью.

Успех NVFP4 показывает, что можно сокращать затраты на мощность логического вывода, используя более компактные модели, без ущерба производительности. А также то, что в будущем стоимость обучения БЯМ может снизиться настолько, что организации смогут обучать собственные модели с нуля, а не только настраивать существующие, пишет Venture Beat.

На днях Nvidia представила новое поколение вычислительных ускорителей Vera Rubin Superchip. Платформа объединяет центральный процессор Vera и два гигантских графических процессора Rubin на одной плате, обеспечивая до 100 петафлопс вычислительной мощности.

Также по теме

Идеи

Астрономы опровергли теорию Стивена Хокинга о природе темной материи

Идеи

Созданные в США растения-фонари светятся час после 10 секунд зарядки

Идеи

Панели-фотореакторы по $22 за м² готовы вырабатывать водород на крышах

Идеи

В Австрии придумали два новых способа, как соединить материалы без клея

Новости СМИ2