Gaudi 3 основан на той же архитектуре, что и его предшественник, но произведен с использованием более нового 5-нм техпроцесса TSMC, в то время как Gaudi 2 использовал 7-нм чипы. Ускоритель состоит из двух кристаллов, на каждом из которых располагается 64 ядра Tensor Processing Cores (TPC) пятого поколения и восемь матричных математических движков (MME). Также в Gaudi 3 имеется 96 Мбайт памяти SRAM с пропускной способностью 12,8 Тбайт/с. Между кристаллами расположена память HBM2e объемом 128 Гбайт, обеспечивающая пропускную способность 3,7 Тбайт/с.
Для обеспечения связи между ускорителями в одном сервере и между разными серверами в одной системе используются 24 контроллера Ethernet RDMA со скоростью передачи данных 200 Гбит/с.
Gaudi 3 будет доступен в двух формфакторах. Первый формфактор — OAM (модуль ускорителя OCP) HL-325L, предназначен для высокопроизводительных систем, которые используют ускорители для вычислений. Этот ускоритель будет иметь TDP 900 Вт и достигать производительности 1835 терафлопс в режиме FP8. Модули OAM будут устанавливаться группами по восемь штук на UBB-узлы HLB-325, которые могут быть объединены в системы до 1024 узлов. Gaudi 3, в сравнении с предыдущим поколением, обеспечивает в два раза большую производительность в режиме FP8, а в режиме BF16 — в четыре раза. Пропускная способность сети увеличена вдвое, а объем памяти — в 1,5 раза.
OAM устанавливаются на универсальную плату, которая может содержать до восьми модулей. Партнёры уже получили эти модули и платы, но массовые поставки начнутся только к концу года.
Установка восьми OAM на плату HLB-325 обеспечивает производительность в 14,6 петафлопс в режиме FP8, а остальные характеристики масштабируются линейно.
Второй формфактор представлен двухслотовой картой расширения PCIe с TDP 600 Вт. По заявлению Intel, несмотря на существенно меньший TDP этой версии, производительность в режиме FP8 осталась на уровне 1835 терафлопс. Однако масштабируемость ухудшилась — модули предназначены для работы группами по четыре. Версия Gaudi 3 в этом формфакторе появится в четвертом квартале 2024 года.
Компании Dell, HPE, Lenovo и Supermicro уже начали поставлять клиентам образцы систем с процессорами Gaudi 3, использующими воздушное охлаждение. Вскоре ожидаются модели с жидкостным охлаждением. Массовое производство данных систем запланировано на третий и четвёртый кварталы 2024 года соответственно.
Intel провела собственные тесты производительности, где сравнила системы на основе процессоров Gaudi 3 и H100 от NVIDIA. Согласно данным Intel, Gaudi 3 обучает нейронные сети в 1,5-1,7 раза быстрее.
Сравнение проводилось на моделях LLAMA2-7B и LLAMA2-13B, где использовались системы с 8 и 16 ускорителями, а также на модели GPT 3-175B на системе с 8192 ускорителями. Intel также заявляет о преимуществе в энергопотреблении в 2,6 раза по сравнению с H100. Однако компания не проводила сравнения с системами на базе NVIDIA H200, у которых объем памяти больше на 76%, а пропускная способность выше на 43%. Intel сравнила производительность Gaudi 3 и H200 в режиме инференса, использовав отдельные модули, а не целые кластеры. В пяти тестах с моделями LLAMA2-7B/70B производительность Gaudi 3 была на 10-20% ниже, в двух равна, а в одном случае оказалась немного выше, чем у H200.
Gaudi 3 является третьим поколением ускорителей искусственного интеллекта, которые появились после приобретения компании Habana Labs Intel в 2019 году за $2 млрд. Массовое производство Gaudi 3 для OEM-производителей серверов запланировано на третий квартал 2024 года. Кроме того, Gaudi 3 будет доступен в облачном сервисе Intel Developer Cloud для разработчиков, что позволит им оценить возможности нового чипа.