在开发和部署高级 AI 模型时,访问可扩展的高效 GPU 基础设施至关重要。但是,在云原生、容器化环境中管理此基础设施可能既复杂又昂贵。这正是 NVIDIA Run:ai 可以提供帮助的地方。NVIDIA Run:ai 现已在 AWS Marketplace 上正式推出,使企业组织能够更轻松地简化其 AI 基础设施管理。
NVIDIA Run:ai 专为 Kubernetes 原生环境而构建,充当 GPU 基础设施的控制平面,消除复杂性,并使组织能够快速、高效和适当的管理并扩展 AI 工作负载。
本文将深入探讨 NVIDIA Run:ai 如何通过亚马逊云科技 (AWS) 来编排 AI 工作负载和 GPU。它与 NVIDIA GPU 加速的 Amazon EC2 实例、Amazon Elastic Kubernetes Service (EKS)、Amazon SageMaker HyperPod、AWS Identity and Access Management (IAM)、Amazon CloudWatch 和其他 AWS 原生服务无缝集成。
挑战:大规模高效 GPU 编排
从大规模训练到实时推理,现代 AI 工作负载都需要动态访问功能强大的 GPU。但在 Kubernetes 环境中,对 GPU 的原生支持有限。常见挑战包括:
● 由于静态分配导致 GPU 利用率低
● 缺乏工作负载优先级和抢占机制
● 对 GPU 消耗的可见性有限
● 难以跨团队和跨工作负载实施管理
NVIDIA Run:ai 解决方案
NVIDIA Run:ai 通过基于 Kubernetes 的 AI 编排平台解决了这些挑战,该平台专为 AI / ML 工作负载设计。它引入了虚拟 GPU 池,可实现基于策略的动态 GPU 资源调度。
● 分片 GPU 分配:在多个推理任务或 Jupyter Notebook 之间共享单个 GPU。
● 动态调度:根据任务优先级、队列和可用性分配完整或分片 GPU。
● 工作负载感知型编排:使用针对每个阶段优化的策略,以不同方式处理训练、调整和推理。
● 基于团队的配额和隔离:使用公平分享或硬配额为团队或项目保障资源。
● 多租户管理:确保共享基础设施环境中的成本可见性和合规性。

图 1. AWS 上的 NVIDIA Run:ai 集群和控制平面
NVIDIA Run:ai 与 NVIDIA 驱动的 AWS 服务无缝集成,可优化性能并简化操作:
1. Kubernetes 集群 (NVIDIA A10G、A100、H100 等) 中的 Amazon EC2 GPU 加速实例
NVIDIA Run:ai 在 Kubernetes 集群上调度 AI 工作负载,这些集群部署在由 NVIDIA GPU 驱动的 EC2 实例上。通过智能共享和装箱,更大限度地提高 GPU 利用率。
● 支持多 GPU 和多节点训练
● 支持交互式工作负载的时间切片和 GPU 超额分配
2. Amazon EKS (Elastic Kubernetes Service)
NVIDIA Run:ai 与 Amazon EKS 原生集成,提供专为 AI 工作负载构建的强大调度和编排层。它可更大限度地提高 Kubernetes 集群中 GPU 资源的利用率。
● NVIDIA Run:ai Scheduler 与 EKS 的原生集成
● 针对 EKS 上的工作负载使用高级 GPU 资源管理来编排和优化 AI 工作负载
● 与 NVIDIA GPU Operator 兼容,后者可跨 EKS 节点自动调配 GPU 驱动程序、监控代理和库
NVIDIA Run:ai 与 Amazon SageMaker HyperPod 集成,可在本地和公有 / 私有云环境中无缝扩展 AI 基础设施。
● 与 NVIDIA Run:ai 的高级 AI 工作负载和 GPU 编排平台相结合,可提高效率和灵活性
● 专为大规模分布式训练和推理而打造
大规模监控 GPU 工作负载需要实时可观测性。NVIDIA Run:ai 可以与 Amazon CloudWatch 集成,提供:
● 自定义指标:将 GPU 级使用指标(例如显存利用率和时间切片统计信息)推送至 CloudWatch。
● 控制面板:可视化每个任务、团队或项目的 GPU 消耗情况。
● 警报:根据利用率不足、任务失败或违反配额的情况触发警报。
通过将 NVIDIA Run:ai 丰富的工作负载遥测与 CloudWatch 的分析和警报相结合,用户可以获得有关资源消耗和效率的可行见解。
安全和管理是 AI 基础设施的基础。NVIDIA Run:ai 与 AWS IAM 集成能够:
● 管理对 AWS 资源的安全访问
● 在 NVIDIA Run:ai 中的 API、资源和命名空间级别实施最低权限访问控制
● 支持审核访问日志和 API 交互,确保合规性和安全性
IAM 集成可确保只有经过授权的用户和服务才能访问或管理 AWS 环境中的 NVIDIA Run:ai 资源。
想象一下,企业 AI 平台包含三个团队:自然语言处理 (NLP)、计算机视觉和生成式 AI。每个团队都需要有保证的 GPU 资源来进行训练,同时还需要在共享基础设施上运行推理任务。
使用 NVIDIA Run:ai:
● 每个团队都会获得有保证的配额和命名空间,并制定自己的公平共享政策。
● 训练任务会根据优先级和可用容量动态排队和调度。
● 交互式任务使用分片式 GPU,从而更大限度地提高稀缺 GPU 资源的回报。
● 所有使用情况均在 CloudWatch 中受到监控,并通过 IAM 角色控制访问。
该模式使 AI 团队能够更快地开展工作,而不互相干扰,同时避免 GPU 闲置带来的预算浪费。

图 2. NVIDIA Run:ai 控制面板
开始使用
随着企业扩大其 AI 工作的规模,手动管理 GPU 基础设施将变得难以为继。NVIDIA Run:ai 与亚马逊云科技上的 NVIDIA 技术相结合,提供强大的编排层,可简化 GPU 管理、提高利用率并加速 AI 创新。
通过与 EKS、EC2、IAM、SageMaker HyperPod 和 CloudWatch 的原生集成,NVIDIA Run:ai 为云端 AI / ML 工作负载提供统一且企业就绪的基础。
如需了解详情或在亚马逊云科技环境中部署 NVIDIA Run:ai,请访问 AWS Marketplace 上的 NVIDIA Run:ai 列表或查看 NVIDIA Run:ai 文档。