某大型算力中心项目,计划建设300x HGX集群,用于通用算力租赁。集群分布在2个机房,中间相隔50米。对于存储方案选型尚在调研,希望提供整体方案。要求对与机房布线给出具体设计建议。

规模与用途

项目规模
  • 300个HGX节点,分布在两个相距50米的机房
  • 大规模云计算资源池,需要高效管理和调度
  • 节点分布形成分布式计算环境,需要低延迟高带宽互联
应用场景
  • 通用算力租赁服务,面向多样化AI计算需求
  • 需要灵活性:支持不同规模的租户应用
  • 需要高性能:满足大规模AI训练和推理工作负载
  • 资源池化管理,实现动态分配与计费

关注点与设计重点

网络架构设计
  • 两机房间高性能、低延迟互联方案
  • 支持大规模分布式训练和推理的网络架构
存储系统选型
  • 高性能分布式存储解决方案
  • 适合AI工作负载的存储架构与访问模式
机房布线设计
  • 跨机房光纤布线方案与管理
  • 机柜内部布线优化设计
  • 线缆管理、标识与维护策略