Management Network 设计方案

针对300节点跨机房HGX集群,我们设计了高性能、高可用性的In-Band管理网络,采用EVPN对称模型实现分布式VLAN间路由。每台HGX服务器通过双网卡连接到MLAG对,确保L2层冗余。Leaf交换机上配置SVI网关和VRR,为服务器提供L3层冗余保障。

网络架构基于BGP Unnumbered UnderlayVXLAN/EVPN Overlay,实现跨机房的虚拟二层网络。每个VTEP在入口和出口处都进行桥接和路由,通过专用的L3VNI传输所有路由流量。支持多租户隔离,每个VRF对应一个L3VNI,所有参与同一VRF的交换机配置相同的L3VNI。

互联网 SN2201-OOB 1-4 SN2201-OOB 5-8 Spine 1 Spine 2 HGX服务器接入交换机 存储服务器接入交换机 Leaf 1 Leaf 2 ... Leaf 13 Leaf 14 Leaf 15 Leaf 16 HGX1-48 ... HGX289-300 存储&管理服务器 HGX 节点 1-150 (机房1) HGX 节点 151-300 (机房2) 28+台存储服务器 (机房2) 主干链路 MLAG互联
网络架构与功能特点

网络架构与冗余设计

  • MLAG L2服务器冗余 - 叶交换机采用MLAG配对,支持服务器双上联
  • SVI网关与VRR - 为服务器提供L3冗余保障
  • BGP Unnumbered - 使用BGP Unnumbered接口构建Underlay
  • 高级路由特性 - 支持Graceful-Restart、BFD路由保护
  • VRF隔离 - 管理、默认与自定义VRFs分离管理、底层与覆盖流量
  • VXLAN覆盖数据平面 - 提供高效的网络虚拟化隧道封装
  • EVPN覆盖控制平面 - 实现分布式控制与MAC地址学习
  • 对称路由模型 - 实现高效的分布式子网间路由

核心功能与服务支持

  • 支持HGX节点操作系统部署与配置,高带宽数据传输与共享存储访问
  • 提供高性能网络数据采集与监控,安全访问控制与多租户隔离
  • 每个VRF对应一个L3VNI,租户间完全隔离
  • 与UFM、Base Command集成,实现统一管理
  • 丰富管理服务 - 整合SNMP、NTP、DNS与Syslog
  • 网络遥测 - 实时监控网络健康状态与性能指标
  • 跨机房统一业务域与计算资源池