NVIDIA
Networking NPN Elite Partner
DDN AI400X2T 详细配置
数据设备 (OSS)
- 24 台 AI400X2T-OSS 设备
- 每台设备提供 >110 GB/s 的读取性能
- 总体读取吞吐量 >2.6 TB/s,超过设计要求
元数据设备 (MDS)
- 4 台 AI400X2T-MDS 设备
- MDS:OSS 比例为 1:6,适合大规模环境
- 总计 36.8 亿 Inode (4台 MDS × 9.2亿 Inode/台)
存储容量
- 标准配置:每台 OSS 设备 120 TB 容量
- 最低聚合容量:2.8 PB (24台 × 120TB)
- 可选配置:每台 250 TB 或 500 TB,可扩展至 12 PB
物理与功耗
- 总设备数:28 台 (24 OSS + 4 MDS)
- 占用机架空间:56U
- 功耗与制冷需求需进一步评估
DDN A³I 关键特性
共享并行架构
多路径并行数据访问,充分利用集群带宽
多轨网络
聚合数据传输,动态平衡,自动故障恢复
热节点
本地 NVMe 缓存,提升重复数据访问性能
容器客户端
支持容器化应用低延迟访问
S3 数据服务
混合文件/对象访问,兼容现代 AI 工作流
多租户
数据隔离与安全控制,支持多用户团队共享集群
客户端压缩
提升存储效率,节约存储空间
Declustered RAID
高硬件故障容忍度,减少恢复时间
性能优势总结
- 每个 DGX H100 系统性能:8 PF/s(FP32)
- 320 台集群总算力:~2.56 EF/s(FP32)
- DDN存储系统读取性能:2.6 TB/s
- 每个 GPU 的存储带宽:~1 GB/s
- 大模型训练能力显著提升,满足下一代 AI 训练需求
备注
配置基于公开资料估算,建议与 DDN 专家团队合作,根据具体工作负载、数据访问模式及扩展计划优化设计。
DDN A3I 解决方案通过 24 台 AI400X2T-OSS 和 4 台 AI400X2T-MDS 设备,提供 >2.6 TB/s 读取性能和 2.8 PB 起步容量,满足 320 台 DGX H100 集群的 AI/DL 工作负载需求,同时支持高并发、低延迟和可扩展性。