Платформа Catalina создана для удовлетворения потребностей в вычислительной мощности для ИИ-моделей, таких как Llama 3.1 с 405 миллиардами параметров и контекстным окном до 128 тысяч токенов. Чтобы обучить такие модели, Meta использует кластеры из 24 тысяч ускорителей NVIDIA H100. Ранее компания использовала кластер на 16 тысяч ускорителей для аналогичных задач.
Catalina относится к классу высокомощных стоек (HPR) и поддерживает мощность до 140 кВт. Архитектура Orv3 обеспечивает гибкую настройку системы для выполнения разнообразных задач. В состав платформы входит гибридный процессор NVIDIA GB200 Grace Blackwell Superchip, а также системы водяного охлаждения, что позволяет поддерживать стабильную работу под высокими нагрузками.
Meta и Microsoft сотрудничают над разработкой системы питания Mount Diablo, которая поможет увеличить количество ускорителей в стойках и улучшить эффективность энергопотребления. Система Mount Diablo включает модульные блоки питания на постоянном токе, что способствует оптимизации энергопотребления и позволяет масштабировать инфраструктуру.
Ускоритель GB200, используемый в Catalina, совместим не только с решениями NVIDIA, но и с AMD Instinct MI300X, что даёт системе гибкость в поддержке различных ИИ-нагрузок. Это решение важно для задач, которые требуют высокой пропускной способности памяти и вычислительных мощностей, таких как глубокое обучение и анализ данных.
Для поддержки работы с новыми ускорителями Meta разработала сеть Disaggregated Scheduled Fabric (DSF), которая обеспечивает высокую пропускную способность и масштабируемость. DSF основана на открытых стандартах OCP-SAI и управляется операционной системой FBOSS, созданной Meta для контроля сетевых коммутаторов. Эта сеть объединяет ускорители и сетевые адаптеры разных производителей, таких как NVIDIA, Broadcom и AMD, что позволяет компании избежать зависимости от одного поставщика.
Одним из основных элементов DSF является новый сетевой коммутатор класса 51Т, созданный на базе чипов Broadcom и Cisco, а также сетевой адаптер FBNIC, разработанный совместно с Marvell. Адаптер FBNIC поддерживает до четырёх 100GbE-портов и использует интерфейс PCIe 5.0, что обеспечивает высокую пропускную способность для работы с большими ИИ-моделями.
Meta делает ставку на открытые платформы и стандартизированные решения в области ИИ, стремясь ускорить внедрение новых технологий и сделать их более доступными. Открытые архитектуры, такие как OCP и FBOSS, дают возможность масштабировать инфраструктуру и адаптировать её к новым задачам.