NVIDIA
Networking NPN Elite Partner
系统管理平台
统一管理平台
- DGX SuperPOD的管理由NVIDIA Base Command解决方案负责
- 集成了NVIDIA AI Enterprise、CUDA和NVIDIA Magnum IO
- 协同工作,确保系统高可用性和高性能运行
监控与优化
- 实时监控系统性能和运行状态
- 智能故障预测和主动故障处理
- 性能瓶颈自动分析与优化建议
内置工作负载管理
- 支持大规模工作负载分布式调度
- 集成Slurm工作负载管理器
- 智能资源分配与优化利用
- 实时任务优先级调整与资源调度
部署与扩展
本地部署模式
- DGX SuperPOD可以部署在本地,客户拥有和管理硬件
- 通过NVIDIA NGC使用安全的云原生界面操作系统
- 为客户提供与公有云体验相同的操作便捷性
- 支持本地与云资源的统一管理
灵活扩展,模块化构建单元
系统以SU (Scalable Unit)为构建块,每个SU包含32个DGX H100系统,可以快速部署不同规模的系统。
最小规模
1 SU
(32 节点)
推荐规模
4 SU
(128 节点)
超大规模
64 SU
(2000+ 节点)