Hitech logo

Кейсы

Новые ИИ-ускорители Gaudi 3 от Intel значительно превосходят NVIDIA H100

TODO:
Екатерина Шемякинская10 апреля, 10:10

Intel поделилась подробностями о новом поколении ИИ-ускорителей Gaudi 3. В компании утверждают, что они позволяют обучать нейросети в 1,7 раза быстрее, на 50% увеличить производительность инференса и работают на 40% эффективнее конкурирующих H100 от NVIDIA, которые пользуются большой популярностью на рынке. Gaudi 3 производятся по новому 5-нм техпроцессу TSMC, достигают производительности 1835 терафлопс в FP8, имеют 96 Мбайт памяти SRAM и 128 Гбайт HBM2e, а также доступны в двух формфакторах. Партнеры Intel уже получили образцы систем с Gaudi 3, а массовые поставки начнутся к концу года.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Gaudi 3 основан на той же архитектуре, что и его предшественник, но произведен с использованием более нового 5-нм техпроцесса TSMC, в то время как Gaudi 2 использовал 7-нм чипы. Ускоритель состоит из двух кристаллов, на каждом из которых располагается 64 ядра Tensor Processing Cores (TPC) пятого поколения и восемь матричных математических движков (MME). Также в Gaudi 3 имеется 96 Мбайт памяти SRAM с пропускной способностью 12,8 Тбайт/с. Между кристаллами расположена память HBM2e объемом 128 Гбайт, обеспечивающая пропускную способность 3,7 Тбайт/с.

Для обеспечения связи между ускорителями в одном сервере и между разными серверами в одной системе используются 24 контроллера Ethernet RDMA со скоростью передачи данных 200 Гбит/с.

Gaudi 3 будет доступен в двух формфакторах. Первый формфактор — OAM (модуль ускорителя OCP) HL-325L, предназначен для высокопроизводительных систем, которые используют ускорители для вычислений. Этот ускоритель будет иметь TDP 900 Вт и достигать производительности 1835 терафлопс в режиме FP8. Модули OAM будут устанавливаться группами по восемь штук на UBB-узлы HLB-325, которые могут быть объединены в системы до 1024 узлов. Gaudi 3, в сравнении с предыдущим поколением, обеспечивает в два раза большую производительность в режиме FP8, а в режиме BF16 — в четыре раза. Пропускная способность сети увеличена вдвое, а объем памяти — в 1,5 раза.

OAM устанавливаются на универсальную плату, которая может содержать до восьми модулей. Партнёры уже получили эти модули и платы, но массовые поставки начнутся только к концу года.

Установка восьми OAM на плату HLB-325 обеспечивает производительность в 14,6 петафлопс в режиме FP8, а остальные характеристики масштабируются линейно.

Второй формфактор представлен двухслотовой картой расширения PCIe с TDP 600 Вт. По заявлению Intel, несмотря на существенно меньший TDP этой версии, производительность в режиме FP8 осталась на уровне 1835 терафлопс. Однако масштабируемость ухудшилась — модули предназначены для работы группами по четыре. Версия Gaudi 3 в этом формфакторе появится в четвертом квартале 2024 года.

Компании Dell, HPE, Lenovo и Supermicro уже начали поставлять клиентам образцы систем с процессорами Gaudi 3, использующими воздушное охлаждение. Вскоре ожидаются модели с жидкостным охлаждением. Массовое производство данных систем запланировано на третий и четвёртый кварталы 2024 года соответственно.

Intel провела собственные тесты производительности, где сравнила системы на основе процессоров Gaudi 3 и H100 от NVIDIA. Согласно данным Intel, Gaudi 3 обучает нейронные сети в 1,5-1,7 раза быстрее.

Сравнение проводилось на моделях LLAMA2-7B и LLAMA2-13B, где использовались системы с 8 и 16 ускорителями, а также на модели GPT 3-175B на системе с 8192 ускорителями. Intel также заявляет о преимуществе в энергопотреблении в 2,6 раза по сравнению с H100. Однако компания не проводила сравнения с системами на базе NVIDIA H200, у которых объем памяти больше на 76%, а пропускная способность выше на 43%. Intel сравнила производительность Gaudi 3 и H200 в режиме инференса, использовав отдельные модули, а не целые кластеры. В пяти тестах с моделями LLAMA2-7B/70B производительность Gaudi 3 была на 10-20% ниже, в двух равна, а в одном случае оказалась немного выше, чем у H200.

Gaudi 3 является третьим поколением ускорителей искусственного интеллекта, которые появились после приобретения компании Habana Labs Intel в 2019 году за $2 млрд. Массовое производство Gaudi 3 для OEM-производителей серверов запланировано на третий квартал 2024 года. Кроме того, Gaudi 3 будет доступен в облачном сервисе Intel Developer Cloud для разработчиков, что позволит им оценить возможности нового чипа.