没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
























NVIDIA GPU MIG 多实例&Multi-Instance
GPU-中文用户指南

译者:技术瘾君子 1573
时间:2024 年 7 月 31 日星期三
目录
第一章、介绍 ........................................................................................................................................4
第二章、支持的 GPU 卡 .....................................................................................................................6
第三章、支持的配置............................................................................................................................7
第四章、虚拟化 ....................................................................................................................................7
第五章、概念 ........................................................................................................................................8
5.1 术语 .........................................................................................................................................8
5.2 分区(Partitioning)..........................................................................................................9
5.3 CUDA 并发机制..................................................................................................................15
第六章、部署考虑事项 .....................................................................................................................16
6.2 应用考虑事项 ......................................................................................................................17
第七章、MIG 设备名称 ....................................................................................................................18
7.1 设备枚举 .............................................................................................................................19
7.2 CUDA 设备枚举..................................................................................................................19
第八章、支持的 MIG 配置文件.......................................................................................................22
8.1 A30 MIG 配置文件 ............................................................................................................22
8.2 A100 MIG 配置文件..........................................................................................................24
8.3 H100 MIG 配置文件..........................................................................................................26
8.4 H200 MIG 配置文件..........................................................................................................31
第九章、开始使用 MIG....................................................................................................................33

9.1 先决条件...............................................................................................................................33
9.2 启用 MIG 模式 ....................................................................................................................34
9.2.1 在 Hopper+ GPU 卡上重置 GPU.......................................................................35
9.2.2 在 Ampere GPU 卡重启 GPU .............................................................................36
9.2.3 客户端驱动程序 ......................................................................................................37
9.3 列出 GPU 实例配置文件 ...................................................................................................38
9.4 创建 GPU 实例....................................................................................................................40
9.5 在裸机上运行 CUDA 应用程序........................................................................................47
9.5.1 GPU 实例..................................................................................................................47
9.5.2 计算实例...................................................................................................................50
9.6 销毁 GPU 实例....................................................................................................................54
9.7 监控 MIG 设备 ....................................................................................................................56
9.8 MIG 与 CUDA MPS...........................................................................................................59
9.9 以容器形式运行 CUDA 应用程序....................................................................................63
9.9.1 安装 Docker ............................................................................................................63
9.9.2 安装 NVIDIA 容器工具包......................................................................................63
9.9.3 运行容器...................................................................................................................64
9.4 MIG 与 Kubernetes ..........................................................................................................69
9.5 MIG 与 Slurm .....................................................................................................................70
第十章、设备节点和功能 .................................................................................................................70
10.1 /dev 基于 nvidia-capabilities......................................................................................71
10.2 / proc 基于 nvidia-capabilities(已弃用) .............................................................76

第十一章、变更日志 .........................................................................................................................78
第一章、介绍
新的多实例 GPU(MIG)功能允许 GPU(从 NVIDIA Ampere 架构开始)被安全地分区
为最多七个独立的 GPU 实例,用于 CUDA 应用程序,为多个用户提供独立的 GPU 资源,
以实现最佳 GPU 利用率。这一功能特别适用于未完全利用 GPU 计算能力的工作负载,因
此用户可能希望并行运行不同的工作负载以最大化利用率。
对于具有多租户用例的云服务提供商(CSPs),MIG 确保一个客户端不会影响其他客户
的工作或调度,同时为客户提供增强的隔离性。
通过 MIG,每个实例的处理器通过整个内存系统具有独立和隔离的路径 - 芯片上的交叉开
关端口、L2 缓存块、内存控制器和 DRAM 地址总线都被唯一地分配给一个单独的实例。
这确保了单个用户的工作负载可以以可预测的吞吐量和延迟运行,具有相同的 L2 缓存分
配和 DRAM 带宽,即使其他任务正在破坏它们自己的缓存或饱和它们的 DRAM 接口。
MIG 可以分区可用的 GPU 计算资源(包括流多处理器或 SMs,以及 GPU 引擎,如复制
引擎或解码器),以为不同客户(如 VM、容器或进程)提供定义的服务质量(QoS)和
故障隔离。MIG 使多个 GPU 实例可以并行运行在单个物理 NVIDIA Ampere GPU 上。
通过 MIG,用户将能够看到并调度他们的新虚拟 GPU 实例上的作业,就像它们是物理
GPU 一样。MIG 与 Linux 操作系统配合使用,支持使用 Docker Engine 的容器,支持
Kubernetes 和使用 Red Hat Virtualization 和 VMware vSphere 等虚拟机监视程序的虚
拟机。
MIG 支持以下部署配置:
裸金属,包括容器

在支持的虚拟机监视程序上向 Linux 客户端进行 GPU 透传虚拟化
在支持的虚拟机监视程序上进行 vGPU 虚拟化
MIG 允许多个 vGPU(从而是 VM)在单个 GPU 上并行运行,同时保留 vGPU 提供的隔
离保证。有关使用 vGPU 和 MIG 进行 GPU 分区的更多信息,请参阅技术简介。
MIG 概述
编辑
本文的目的是介绍 MIG 背后的概念、部署考虑因素,并提供 MIG 管理示例,以展示用户
如何在支持 MIG 的 GPU 上运行 CUDA 应用程序。
第二章、支持的 GPU 卡
MIG 支持从 NVIDIA Ampere 一代开始的 GPU(即具有计算能力>= 8.0 的 GPU)。
剩余80页未读,继续阅读
资源评论


技术瘾君子1573
- 粉丝: 2w+
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
- 2014版CAD操作教程.doc
- (源码)基于Arduino的Orbita50 Swiss Edition音乐硬件固件项目.zip
- 基于Matlab的ARIMA模型:自回归差分移动平均模型(p,d,q)的步骤与实现
- 网站制作推广策划书方案模板.docx
- 移动web技术.ppt
- 建设工程项目管理习题.doc
- 某年度中国软件产业高级管理人员培训班.pptx
- 网络营销策划的概念.doc
- 2023年广西三类人员安全继续教育网络考试试题及参考答案.doc
- 电子商务行业人力资源管理方案设计.doc
- 模块十设计网络营销渠道PPT课件.ppt
- 基于MATLAB的锅炉水温与流量串级控制系统的设计.doc
- 工程项目管理风险研究.doc
- 实验室项目管理知识计划书.doc
- 岩土工程CAD深基础支护.ppt
- MATLAB实现光子晶体滤波器:缺陷层折射率对中心波长偏移影响研究 实战版
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈



安全验证
文档复制为VIP权益,开通VIP直接复制
