NVIDIA DGX SuperPOD架构概述
NVIDIA DGX SuperPOD 是用于人工智能和高性能计算的下一代数据中心架构,旨在提供解决AI、HPC以及混合应用中先进计算挑战所需的计算性能水平。以模块化设计为基础,支持从小型集群到ExaFLOPS级别的扩展。
用于AI和HPC
NVIDIA原厂验证架构
H100 GPU加速
Hopper架构

架构设计理念

DGX SuperPOD架构的设计目标是最大化最先进模型训练的性能,扩展到ExaFLOPS级别,为存储提供最高性能,并支持企业、高等教育、研究和公共部门的各类客户。

采用模块化设计,基于可扩展单元(SU)构建。每个SU包含32个DGX H100系统,这使得系统可以快速部署不同规模的集群。

NVIDIA研发团队内部使用相同架构,确保所有软件、应用和支持结构在发布前经过充分测试验证。

核心技术组件

NVIDIA DGX H100系统
提供8个H100 GPU,FP8精度下性能提升9倍,支持高达32 petaFLOPS的FP8精度性能。每系统配备双Intel Xeon处理器(112核)、2TB内存和640GB HBM3显存。
NVIDIA NDR (400 Gbps) InfiniBand
提供最高性能、最低延迟和最可扩展的网络互连,采用优化的全胖树拓扑,支持高速节点间通信。
第四代NVLink技术连接GPU,每GPU带宽达到900 GBps,比上一代提升1.5倍,为大规模分布式训练提供前所未有的性能。