1. 集群概况

计算资源
  • 320 台 NVIDIA DGX H100 系统
  • HGX H100 8-GPU 平台架构
  • 共计 2560 个 GPU
320
DGX H100 系统
2560
GPU 总数
2.56
EF/s 计算性能

2. 存储需求

性能目标("Best"等级)
  • 读取吞吐量:2.56 TB/s (1 GB/s per GPU)
  • 写入吞吐量:1.28 TB/s (0.5 GB/s per GPU)
  • 满足 AI/DL 工作负载(LLM 训练、检查点操作等)的高吞吐量、低延迟、高并发需求
2.56
TB/s 读取
1.28
TB/s 写入
1GB/s
每GPU读取

3. DDN A³I 解决方案核心组件

DDN AI400X2T Appliance
  • 全闪存共享数据平台,集成 DDN EXAScaler 并行文件系统
  • 单台性能:>110 GB/s 读取,3M IOPS
  • 可线性扩展性能与容量
DDN Insight
  • 集中式管理和监控软件,简化运维
  • 全局数据视图和性能分析

4. 推荐存储配置

设备配置
  • 数据设备 (OSS):24 台,提供 >2.64 TB/s 读取性能
  • 元数据设备 (MDS):4 台 (MDS:OSS 比例 1:6)
存储容量
  • 最低聚合容量:2.8 PB (24台 OSS × 120 TB)
  • 可选容量:每台 250 TB 或 500 TB
  • Inode 数量:4 台 MDS × 9.2 亿 Inode = 36.8 亿 Inode