NVIDIA
Networking NPN Elite Partner
存储方案总结
推荐配置
- 存储设备:28台DDN AI400X2(或14台NetApp AFF A900、8个Pure Storage FlashBlade//S500)
- 带宽:单节点110 GB/s,集群总带宽2.5 TB/s
- 容量:3-12 PB,支持LLM训练数据集和检查点存储
- 文件系统:Magnum IO GPUDirect Storage + WEKA/Lustre,专用NVMe分区存储检查点
- 网络:14台QM9790 Leaf交换机,7台QM9790 Spine交换机,400G/800G光模块
关键技术
- GPUDirect Storage,优化数据到H100 GPU的传输,减少CPU开销,提供微秒级延迟
- InfiniBand NDR 400Gb/s,保障高吞吐量和低延迟,支持高性能大规模分布式训练
- DDN Hot Nodes和WEKA Fast Checkpointing,加速数据访问和检查点管理,优化训练效率
扩展性
- 系统支持从320节点扩展到更大规模(如512节点)
- 通过增加AI400X2节点和交换机实现线性扩展
- Fat-Tree网络架构支持轻松扩展,无需对核心网络进行重大更改
- 分布式文件系统能够随存储容量无缝扩展,支持超大规模数据集管理
适用场景
- 专为LLM训练设计
- 满足PB级数据集的存储和访问需求
- 支持大规模集群高并发访问,提供一致的性能
- 优化频繁检查点存储和恢复,减少训练中断时间
- 支持企业级通用算力租赁服务,适应多样化AI计算需求