NVIDIA NPN SP技术大比武 - 存储系统方案总结

存储方案总结

推荐配置

存储设备：28台DDN AI400X2（或14台NetApp AFF A900、8个Pure Storage FlashBlade//S500）
带宽：单节点110 GB/s，集群总带宽2.5 TB/s
容量：3-12 PB，支持LLM训练数据集和检查点存储
文件系统：Magnum IO GPUDirect Storage + WEKA/Lustre，专用NVMe分区存储检查点
网络：14台QM9790 Leaf交换机，7台QM9790 Spine交换机，400G/800G光模块

关键技术

GPUDirect Storage，优化数据到H100 GPU的传输，减少CPU开销，提供微秒级延迟
InfiniBand NDR 400Gb/s，保障高吞吐量和低延迟，支持高性能大规模分布式训练
DDN Hot Nodes和WEKA Fast Checkpointing，加速数据访问和检查点管理，优化训练效率

扩展性

系统支持从320节点扩展到更大规模（如512节点）
通过增加AI400X2节点和交换机实现线性扩展
Fat-Tree网络架构支持轻松扩展，无需对核心网络进行重大更改
分布式文件系统能够随存储容量无缝扩展，支持超大规模数据集管理

适用场景

专为LLM训练设计
满足PB级数据集的存储和访问需求
支持大规模集群高并发访问，提供一致的性能
优化频繁检查点存储和恢复，减少训练中断时间
支持企业级通用算力租赁服务，适应多样化AI计算需求

< >