NVIDIA SuperPOD部署与管理

系统管理平台

统一管理平台

DGX SuperPOD的管理由NVIDIA Base Command解决方案负责
集成了NVIDIA AI Enterprise、CUDA和NVIDIA Magnum IO
协同工作，确保系统高可用性和高性能运行

监控与优化

实时监控系统性能和运行状态
智能故障预测和主动故障处理
性能瓶颈自动分析与优化建议

内置工作负载管理

支持大规模工作负载分布式调度
集成Slurm工作负载管理器
智能资源分配与优化利用
实时任务优先级调整与资源调度

部署与扩展

本地部署模式

DGX SuperPOD可以部署在本地，客户拥有和管理硬件
通过NVIDIA NGC使用安全的云原生界面操作系统
为客户提供与公有云体验相同的操作便捷性
支持本地与云资源的统一管理

灵活扩展，模块化构建单元

系统以SU (Scalable Unit)为构建块，每个SU包含32个DGX H100系统，可以快速部署不同规模的系统。

最小规模

1 SU

(32 节点)

推荐规模

4 SU

(128 节点)

超大规模

64 SU

(2000+ 节点)

< >