NVIDIA
Networking NPN Elite Partner
方案整体概述
基于NVIDIA SuperPOD参考架构,我们设计了一套完整的高性能AI数据中心网络解决方案,支持300节点HGX集群跨双机房部署。方案包含三套完整网络:
Compute Fabric
Storage Fabric
Management Network
Compute Fabric采用NDR 400Gb/s InfiniBand技术,三层胖树拓扑设计确保节点间无阻塞通信,支持大规模AI训练与推理工作负载。
Storage Fabric同样基于InfiniBand技术,构建高吞吐量、低延迟的数据存储网络,通过冗余设计确保数据访问可靠性。
Management Network使用NVIDIA Spectrum以太网交换机,提供稳定可靠的带外管理与监控能力。
整套方案符合NVIDIA认证设计规范,全面满足AI超大规模集群的网络需求,并具备良好的可扩展性。
300节点HGX集群完整BOM清单
| 网络类型 | 设备类型 | 型号 | 数量 | 用途 |
|---|---|---|---|---|
| Compute Fabric | InfiniBand交换机 | NVIDIA QM9790-NS2R | 224台 | Core/Spine/Leaf层交换机 |
| 800G光模块 | MMA4Z00-NS | 约6400个 | 交换机侧连接 | |
| 400G光模块 | MMA4Z00-NS400 | 约2404个 | 服务器网卡模块 | |
| Storage Fabric | InfiniBand交换机 | NVIDIA QM9790-NS2R | 21台 | 存储网络Spine/Leaf层 |
| 800G OSFP模块 | MMA4Z00-NS | 约630个 | 交换机侧连接 | |
| 400G OSFP模块 | MMA4Z00-NS400 | 约420个 | 存储设备连接 | |
| Management Network | 100G 交换机 | MSN4600-CS2RC | 18台 | In-Band网络组网 |
| 1G 交换机 | MSN2201-CB2RC | 8台 | OOB网络组网 | |
| 100G光模块 | MMA1B00-C100D | 1800+个 | 管理网络连接 | |
| 千兆网线 | Cat6 1G | 700+条 | 连接BMC,Mgmt | |
| 线缆 | MPO光纤(计算网络) | MFP7E10-N050/N030 | 7500+条 | 计算网络各层级连接 |
| MPO光纤(存储网络) | MFP7E10-N050/N030 | 约376条 | 存储网络各层级连接 | |
| MPO光纤(管理网络) | MPO12-UPC(100G) | 约900+条 | 高速管理网络连接 | |
| 管理系统 | 网络管理软件 | UFM Enterprise | 2套 | 网络监控与管理 |
| 存储系统 | DDN AI400X2 | 2套 | 分布式存储系统 |