软件组件 (Software Components)
DGX SuperPOD是一个集成的软硬件解决方案,配套软件经过优化,可最大化系统性能和价值。这些软件组件相互配合,为AI和HPC工作负载提供完整的平台支持。

Base Command Manager

为异构HPC和AI服务器集群提供全面的集群管理解决方案,自动化配置和管理,并支持数千节点的大规模集群。
集群自动化配置
自动化节点管理
扩展至数千节点

NVIDIA NGC

提供GPU优化容器集合,用于AI和HPC。NGC目录中的软件经过测试,可扩展到多个GPU,在某些情况下甚至可扩展到多节点。
GPU优化容器
经测试多GPU扩展
多节点支持

Base Command Platform

DGX SuperPOD的可选软件附加组件,使数据科学家能够通过有效配置和管理AI工作负载、集成数据集管理,更快地交付生产就绪模型。
AI工作负载管理
集成数据集管理
云托管管理功能

NVIDIA AI Enterprise

一套优化用于AI开发和部署的AI和数据分析软件。包含经过认证和支持在DGX SuperPOD上运行的开源容器和框架。
NVIDIA RAPIDS™
NVIDIA TAO Toolkit
Triton Inference Server

Magnum IO

增强AI和HPC的性能,通过优化数据处理路径提高整体系统吞吐量,降低延迟,为大型工作负载提供更高效的数据移动。
优化数据处理路径
高效数据移动
降低系统延迟

Slurm

一种经典的工作负载管理器,用于在多节点、批处理式计算环境中管理复杂工作负载,实现资源优化分配和高效调度。
多节点工作负载管理
资源调度与监控
批处理计算环境支持