系统管理平台

统一管理平台
  • DGX SuperPOD的管理由NVIDIA Base Command解决方案负责
  • 集成了NVIDIA AI Enterprise、CUDA和NVIDIA Magnum IO
  • 协同工作,确保系统高可用性和高性能运行
监控与优化
  • 实时监控系统性能和运行状态
  • 智能故障预测和主动故障处理
  • 性能瓶颈自动分析与优化建议
内置工作负载管理
  • 支持大规模工作负载分布式调度
  • 集成Slurm工作负载管理器
  • 智能资源分配与优化利用
  • 实时任务优先级调整与资源调度

部署与扩展

本地部署模式
  • DGX SuperPOD可以部署在本地,客户拥有和管理硬件
  • 通过NVIDIA NGC使用安全的云原生界面操作系统
  • 为客户提供与公有云体验相同的操作便捷性
  • 支持本地与云资源的统一管理
灵活扩展,模块化构建单元

系统以SU (Scalable Unit)为构建块,每个SU包含32个DGX H100系统,可以快速部署不同规模的系统。

最小规模
1 SU
(32 节点)
推荐规模
4 SU
(128 节点)
超大规模
64 SU
(2000+ 节点)