«Система со 100 тыс. H100 с жидкостным охлаждением на единой RDMA-шине стала самым мощным кластером для обучения ИИ в мире», — написал Маск. Неизвестно, участвовал ли бизнесмен лично в запуске ИИ-суперкомпьютера, но на опубликованном снимке видно, что он общался с инженерами xAI во время подключения оборудования.
Ранее в этом году сообщалось, что Маск планирует к осени 2025 года запустить так называемую «гигафабрику для вычислений» — гигантский дата-центр с самым мощным в мире ИИ-суперкомпьютером. Похоже, Маск не захотел ждать выхода ускорителей H200 и будущих моделей поколения Blackwell, B100 и B200, которые, должны появиться до конца этого года. Чипы H100, которые используются в суперкомпьютере xAI, Nvidia выпускает с прошлого года. Они пользуются большим спросом среди разработчиков ИИ-моделей, в том числе конкурентов Маска из OpenAI. Упомянутая бизнесменом единая структура RDMA (структура удаленного прямого доступа к памяти) обеспечивает более эффективную и быструю передачу данных между вычислительными узлами без нагрузки на центральный процессор.
По данным местного новостного агентства WREG, суперкластер расположен в юго-западной части города и «станет крупнейшим капиталовложением компании, впервые вышедшей на рынок, за всю историю города». Однако у xAI пока нет контракта с местной энергетической компанией Tennessee Valley Authority, необходимого для обеспечения электроэнергией проектов мощностью более 100 МВт.
Бизнесмен написал, что xAI намерена обучить «самый мощный в мире ИИ по всем показателям» к декабрю этого года. Маск добавил, что Memphis Supercluster поможет достичь этой цели. Вероятно, речь идёт об алгоритме Grok 3. Но при всех своих успехах Маск печально известен тем, что публично объявляет сроки, но затем не укладывается в них. Так было с автономным вождением, роботакси и отправкой людей на Марс. Поэтому не факт, что новая модель Grok действительно выйдет в декабре 2024 года. Между тем, конкуренция в области ИИ-моделей усиливается: OpenAI, Anthropic, Google и Microsoft разрабатывают все более мощные БЯМ.
Microsoft совместно с генеральным директором OpenAI Сэмом Альтманом работает над собственным суперкомпьютером для обучения ИИ под названием Stargate. Стоимость проекта — $100 млрд. Если Stargate будет реализован, Memphis Supercluster может потерять статус самого мощного в мире. Но пока что ИИ-суперкомпьютер в Мемфисе значительно превосходит аналоги. Например, суперкомпьютер Frontier построен на базе 27 888 ускорителей AMD, Aurora использует 60 000 ускорителей Intel, а Microsoft Eagle — 14 400 ускорителей H100 от Nvidia.