NVIDIA
Networking NPN Elite Partner
存储网络架构
基于NVIDIA SuperPOD参考架构,我们采用NDR 400Gb/s InfiniBand作为存储网络主干,构建高吞吐量、低延迟的Fat-Tree拓扑,为300节点HGX集群和存储系统提供强大的网络基础。
部署7台NVIDIA Quantum-2 QM9790 Spine交换机和14台QM9790 Leaf交换机,每台Spine交换机全连接到所有Leaf交换机,Leaf1-10连接到HGX节点,而Leaf11和Leaf14全连接到所有存储设备,形成高度冗余的网络架构,提供无阻塞带宽与多路径冗余。
存储网络设备清单
| 类型 | 型号 | 数量 | 用途 |
|---|---|---|---|
| IB交换机 | NVIDIA QM9790-NS2R | 21 | Spine/Leaf层交换机 |
| 800G OSFP模块 | MMA4Z00-NS | 约630个 | 交换机侧连接 |
| 400G OSFP模块 | MMA1Z00-NS400 | 约824个 | 网卡侧连接(NDR200) |
| MPO多模光纤 | MFP7E10-N030/50 | 约420条 | 交换机连接 |
| MPO多模光纤 | MFP7E20-N030 | 约420条 | 交换机至服务器(Y-Cable) |
| 管理软件 | UFM Enterprise | 1套 | 网络监控与管理 |
网络优化技术
-
Adaptive Routing - 实时监控网络流量,动态选择最佳路径,避免网络拥塞,提高带宽利用率
-
NVIDIA UFM - 全面监控网络状态,预测潜在故障,优化流量,提供实时性能分析
-
交叉冗余连接 - GPU节点和存储设备使用Y型线缆连接到Leaf交换机,实现双链路和负载均衡,排除单点故障风险