NVIDIA SuperPOD参考架构

NVIDIA DGX SuperPOD架构概述

NVIDIA DGX SuperPOD 是用于人工智能和高性能计算的下一代数据中心架构，旨在提供解决AI、HPC以及混合应用中先进计算挑战所需的计算性能水平。以模块化设计为基础，支持从小型集群到ExaFLOPS级别的扩展。

用于AI和HPC

NVIDIA原厂验证架构

H100 GPU加速

Hopper架构

架构设计理念

DGX SuperPOD架构的设计目标是最大化最先进模型训练的性能，扩展到ExaFLOPS级别，为存储提供最高性能，并支持企业、高等教育、研究和公共部门的各类客户。

采用模块化设计，基于可扩展单元(SU)构建。每个SU包含32个DGX H100系统，这使得系统可以快速部署不同规模的集群。

NVIDIA研发团队内部使用相同架构，确保所有软件、应用和支持结构在发布前经过充分测试验证。

NVIDIA DGX H100系统

提供8个H100 GPU，FP8精度下性能提升9倍，支持高达32 petaFLOPS的FP8精度性能。每系统配备双Intel Xeon处理器(112核)、2TB内存和640GB HBM3显存。

NVIDIA NDR (400 Gbps) InfiniBand

提供最高性能、最低延迟和最可扩展的网络互连，采用优化的全胖树拓扑，支持高速节点间通信。

NVIDIA NVLink®技术

第四代NVLink技术连接GPU，每GPU带宽达到900 GBps，比上一代提升1.5倍，为大规模分布式训练提供前所未有的性能。