NVIDIA Quantum-2 NDR 400G 网络架构

基于NVIDIA SuperPOD参考架构,我们采用InfiniBand交换机构建三层胖树拓扑,为300节点HGX集群提供高带宽低延迟的节点间通信。使用NVIDIA Quantum-2 QM9790智能交换机构建无阻塞网络,为每台H100服务器提供8条独立的NDR 400Gb/s InfiniBand链路。

这种三层交换机连接提供完整的胖树拓扑,保证 Compute Fabric 的无堵塞转发,最大化满足AI训练的通信需求。同时,该设计也提供了一定的硬件冗余能力,确保任意节点间最大5跳可达,优化跨机房的通信性能。

Core1-Core8 ........ Core57-Core64 CG1 CG8 Spine1-8 ........ Spine57-64 Spine65-72 Spine73-80 SG1 SG8 SG9 SG10 Leaf1-8 ........ Leaf57-64 Leaf65-72 Leaf73-80 LG1 LG8 LG9 LG10 HGX HGX HGX HGX 机房1: 150节点 机房2: 150节点
Compute Fabric 设备清单 (BOM)
类型 型号 数量 用途
IB交换机 NVIDIA QM9790-NS2R 64 Core层交换机
IB交换机 NVIDIA QM9790-NS2R 80 Spine层交换机
IB交换机 NVIDIA QM9790-NS2R 80 Leaf层交换机
MPO光纤 MFP7E10-N050 2560 Core至Spine连接
MPO光纤 MFP7E10-N030 2560 Spine至Leaf连接
MPO光纤 MFP7E10-N030 2404 Leaf至服务器连接
800G光模块 MMA4Z00-NS 1280 Core交换机模块
800G光模块 MMA4Z00-NS 2560 Spine交换机模块
800G光模块 MMA4Z00-NS 2560* Leaf交换机模块
400G光模块 MMA4Z00-NS400 2404 服务器网卡模块