NVIDIA NPN SP技术大比武 - 存储系统具体配置示例

具体配置示例

首选：28台DDN AI400X2

备选：14台NetApp AFF A900或8个Pure Storage FlashBlade//S500

单节点：110 GB/s

集群总带宽：2.5 TB/s

3-12 PB，支持LLM训练数据集与检查点存储

Magnum IO GPUDirect Storage + WEKA/Lustre

专用检查点存储分区，全NVMe SSD加速模型保存

14台QM9790 Leaf、7台QM9790 Spine

光模块：400G约420个，800G约630个

DDN Insight用于I/O性能监控

NVIDIA Base Command Manager集成SLURM/K8s

附加建议

利用DGX H200内置NVMe SSD（每节点30-60 TB）

配置DDN Hot Nodes或WEKA客户端缓存

LLM检查点文件较大（数百GB到TB级）

使用全NVMe分区，结合异步写入技术

集群功耗56 KW，推荐液冷系统

Cooling, nominal 205 kBTU/hr

存储机柜需与液冷机架兼容，确保高效散热

NVIDIA AI Enterprise套件，优化LLM训练框架

DeepOps/Cluster Manager简化集群部署

NGC容器加速模型开发

NVIDIA UFM和DDN Insight监控网络和存储性能

NVIDIA Enterprise Support确保响应硬件/软件问题

DDN A³I和VAST Data提供高性价比

NetApp/Pure Storage适合企业级支持需求

预算受限可混合NVMe和QLC SSD，降低每TB成本