方案整体概述

基于NVIDIA SuperPOD参考架构,我们设计了一套完整的高性能AI数据中心网络解决方案,支持300节点HGX集群跨双机房部署。方案包含三套完整网络:

Compute Fabric
Storage Fabric
Management Network

Compute Fabric采用NDR 400Gb/s InfiniBand技术,三层胖树拓扑设计确保节点间无阻塞通信,支持大规模AI训练与推理工作负载。

Storage Fabric同样基于InfiniBand技术,构建高吞吐量、低延迟的数据存储网络,通过冗余设计确保数据访问可靠性。

Management Network使用NVIDIA Spectrum以太网交换机,提供稳定可靠的带外管理与监控能力。

整套方案符合NVIDIA认证设计规范,全面满足AI超大规模集群的网络需求,并具备良好的可扩展性。

300节点HGX集群完整BOM清单
网络类型 设备类型 型号 数量 用途
Compute Fabric InfiniBand交换机 NVIDIA QM9790-NS2R 224台 Core/Spine/Leaf层交换机
800G光模块 MMA4Z00-NS 约6400个 交换机侧连接
400G光模块 MMA4Z00-NS400 约2404个 服务器网卡模块
Storage Fabric InfiniBand交换机 NVIDIA QM9790-NS2R 21台 存储网络Spine/Leaf层
800G OSFP模块 MMA4Z00-NS 约630个 交换机侧连接
400G OSFP模块 MMA4Z00-NS400 约420个 存储设备连接
Management Network 100G 交换机 MSN4600-CS2RC 18台 In-Band网络组网
1G 交换机 MSN2201-CB2RC 8台 OOB网络组网
100G光模块 MMA1B00-C100D 1800+个 管理网络连接
千兆网线 Cat6 1G 700+条 连接BMC,Mgmt
线缆 MPO光纤(计算网络) MFP7E10-N050/N030 7500+条 计算网络各层级连接
MPO光纤(存储网络) MFP7E10-N050/N030 约376条 存储网络各层级连接
MPO光纤(管理网络) MPO12-UPC(100G) 约900+条 高速管理网络连接
管理系统 网络管理软件 UFM Enterprise 2套 网络监控与管理
存储系统 DDN AI400X2 2套 分布式存储系统