存储方案总结

推荐配置

  • 存储设备:28台DDN AI400X2(或14台NetApp AFF A900、8个Pure Storage FlashBlade//S500)
  • 带宽:单节点110 GB/s,集群总带宽2.5 TB/s
  • 容量:3-12 PB,支持LLM训练数据集和检查点存储
  • 文件系统:Magnum IO GPUDirect Storage + WEKA/Lustre,专用NVMe分区存储检查点
  • 网络:14台QM9790 Leaf交换机,7台QM9790 Spine交换机,400G/800G光模块

关键技术

  • GPUDirect Storage,优化数据到H100 GPU的传输,减少CPU开销,提供微秒级延迟
  • InfiniBand NDR 400Gb/s,保障高吞吐量和低延迟,支持高性能大规模分布式训练
  • DDN Hot Nodes和WEKA Fast Checkpointing,加速数据访问和检查点管理,优化训练效率

扩展性

  • 系统支持从320节点扩展到更大规模(如512节点)
  • 通过增加AI400X2节点和交换机实现线性扩展
  • Fat-Tree网络架构支持轻松扩展,无需对核心网络进行重大更改
  • 分布式文件系统能够随存储容量无缝扩展,支持超大规模数据集管理

适用场景

  • 专为LLM训练设计
  • 满足PB级数据集的存储和访问需求
  • 支持大规模集群高并发访问,提供一致的性能
  • 优化频繁检查点存储和恢复,减少训练中断时间
  • 支持企业级通用算力租赁服务,适应多样化AI计算需求