存储网络架构

基于NVIDIA SuperPOD参考架构,我们采用NDR 400Gb/s InfiniBand作为存储网络主干,构建高吞吐量、低延迟的Fat-Tree拓扑,为300节点HGX集群和存储系统提供强大的网络基础。

部署7台NVIDIA Quantum-2 QM9790 Spine交换机和14台QM9790 Leaf交换机,每台Spine交换机全连接到所有Leaf交换机,Leaf1-10连接到HGX节点,而Leaf11和Leaf14全连接到所有存储设备,形成高度冗余的网络架构,提供无阻塞带宽多路径冗余

Spine1 • • • • • Spine7 UFM Leaf1-2 • • • Leaf9-10 Leaf11 Leaf14 HGX1-60 • • • HGX241-300 Storage1 Storage28
存储网络设备清单
类型 型号 数量 用途
IB交换机 NVIDIA QM9790-NS2R 21 Spine/Leaf层交换机
800G OSFP模块 MMA4Z00-NS 约630个 交换机侧连接
400G OSFP模块 MMA1Z00-NS400 约824个 网卡侧连接(NDR200)
MPO多模光纤 MFP7E10-N030/50 约420条 交换机连接
MPO多模光纤 MFP7E20-N030 约420条 交换机至服务器(Y-Cable)
管理软件 UFM Enterprise 1套 网络监控与管理

网络优化技术

  • Adaptive Routing - 实时监控网络流量,动态选择最佳路径,避免网络拥塞,提高带宽利用率
  • NVIDIA UFM - 全面监控网络状态,预测潜在故障,优化流量,提供实时性能分析
  • 交叉冗余连接 - GPU节点和存储设备使用Y型线缆连接到Leaf交换机,实现双链路和负载均衡,排除单点故障风险