NVIDIA JetPack 6.2 为 NVIDIA Jetson Orin Nano 和 Jetson Orin NX 模块带来了超级模式

最新推荐文章于 2025-04-29 20:16:23 发布

ericliu2017

最新推荐文章于 2025-04-29 20:16:23 发布

阅读量1.7k

点赞数 18

CC 4.0 BY-SA版权

文章标签：人工智能

本文链接：https://blog.csdn.net/myboyliu2007/article/details/145345483

介绍 NVIDIA Jetson Orin Nano 超级开发工具包的上市为小型边缘设备的生成式人工智能开启了一个新时代。新的超级模式给予了开发工具包高达 1.7 倍的前所未有的生成式人工智能性能提升，使其成为最具性价比的生成式人工智能超级计算机。

JetPack 6.2 现已推出，以支持Jetson Orin Nano和Jetson Orin NX生产模块的超级模式，提供高达 2 倍的生成 AI 模型性能。现在您可以为新的和现有的机器人及边缘 AI 应用程序释放更大的价值，并降低总体拥有成本。

本文讨论了超级模式的细节，包括新的功率模式、针对 Jetson Orin Nano 和 Orin NX 模块的流行生成 AI 模型的基准测试、文档更新以及支持超级模式的 NPN 合作伙伴的见解。

Jetson Orin Nano 和 Jetson Orin NX 系列的新参考电源模式

JetPack 6.2 通过解锁 GPU、DLA 内存和 CPU 时钟的更高频率，为 Jetson Orin Nano 和 Jetson Orin NX 系列提供了性能提升。

MODULE	现有参考电源模式（可用与现有的闪烁配置）	新电源模式（仅在新的闪烁配置下可用）
NVIDIA Jetson Orin Nano 4GB	7W, 10W	10W, 25W,MAXN超级
NVIDIA Jetson Orin Nano 8GB	7W, 15W	15W, 25W,MAXN超级
NVIDIA Jetson Orin NX 8GB	10W, 15W, 20W, MAXN	10W, 15W, 20W, 40W,MAXN SUPER
NVIDIA Jetson Orin NX 16GB	10W, 15W, 25W, MAXN	10W, 15W, 25W, 40W,MAXN超级

表 1. Jetson Orin Nano 和 Jetson Orin NX 模块的新参考功率模式

Jetson Orin Nano 模块现在有一个 25W 模式和一个新的无上限 MAXN SUPER 模式。同样，Jetson Orin NX 模块现在可以使用一个新的更高的 40W 参考功率模式以及一个无上限 MAXN SUPER 模式。

MAXN SUPER 是一种不受限制的电源模式，允许 CPU、GPU、DLA、PVA 和 SOC 引擎使用最高数量的核心和时钟频率。如果在此模式下模块的总功率超过了热设计功率（TDP）预算，则模块将被限制到较低的频率，从而在保持在热预算内的同时提供较低的性能。

我们强烈建议您构建自己的自定义电源模式，以找到适合您应用和需求的功耗或热稳定性与性能之间的合适平衡。

表 2 比较了 Jetson Orin Nano 4GB 和 8GB 以及 Jetson Orin NX 8GB 和 16GB 在其原始模式和超模式下的详细规格。

	ORIN NANO 4GB	ORIN NANO 4GB (SUPER)	ORIN NANO 8GB	ORIN NANO 8GB (SUPER)	ORIN NX 8GB	ORIN NX 8GB (SUPER)	ORIN NX 16GB	ORIN NX 16GB (SUPER)
峰值人工智能性能INT8	20 TOPS (稀疏) 10 TOPS (Dense)	34 TOPS（稀疏） 17 TOPS (Dense)	40 TOPS（稀疏） 20 TOPS（密集）	67 TOPS (Sparse) 33 TOPS (Dense)	70 TOPS (稀疏) 35 TOPS（密集）	117 TOPS (稀疏) 58 TOPS (Dense)	100 TOPS (稀疏) 50 TOPS (Dense)	157 TOPS (稀疏) 78 TOPS (Dense)
NVIDIA AMPERE GPU	512 CUDA 核心 16 个张量核心 625 MHz 20/10 INT8 TOPs (S/D) 5 FP16 TFLOPs	512 CUDA 核心 16 张量核心 1020 MHz 34/17 INT8 TOPs (S/D) 8.5 FP16 TFLOPs	1024 CUDA 核心 32 个张量核心 625 MHz 40/20 INT8 TOPs (S/D) 10 FP16 TFLOPs	1024 个 CUDA 核心 32 个张量核心 1020 MHz 67/33 INT8 TOPs (S/D) 17 FP16 TFLOPs	1024 CUDA 核心请提供需要翻译的文本 32 个 Tensor Cores 765 MHz 50/25 INT8 TOPs (S/D) 13 FP16 TFLOPs	1024 CUDA 核心 32 个张量核心 1173 MHz 77/38 INT8 TOPs (S/D) 19 FP16 TFLOPs	1024 CUDA 核心请提供要翻译的文本 32 个张量核 918 MHz 60/30 INT8 TOPs (S/D) 15 FP16 TFLOPs	1024 CUDA 核心 32 个张量核心请提供需要翻译的文本 1173 MHz 77/38 INT8 TOPs (S/D) 19 FP16 TFLOPs
CPU	6X A78 1.5 GHz	6X A78 1.7 GHz	6X A78 1.5 GHz	6X A78 1.7 GHz	6X A78 2.0 GHz	6X A78 2.0 GHz	8X A782 .0 GHz	8X A78 2.0 GHz
DLA (S/D)	NA	NA	NA	NA	20/10 INT8 TOPs	40/20 INT8 TOPs	40/20 INT8 TOPs	80/40 INT8 TOPs
DRAM BW	34 GB/s	51 GB/s	68 GB/s	102 GB/s	102 GB/s	102 GB/s	102 GB/s	102 GB/s
模块电源	7W 10W	7W 10W 25W	7W 15W	7W 15W 25W	10W 15W 20W	10W 15W 25W 40W	10W 15W 25W	10W 15W 25W 40W

表 2. Jetson Orin Nano 和 Jetson Orin NX 的原始规格以及超级模式下的规格

在使用新的电源模式时，请确保您产品现有或新的热设计能够满足电源模式的新规格。有关更多信息，请参阅更新的热设计指南。

更新的功率估算工具

功率估算工具是 NVIDIA 提供的一个强大工具，通过修改系统参数（如核心、最大频率和 GPU、CPU、DLA 等的负载水平）来创建自定义功率配置文件和nvpmodel配置文件。该工具提供了在各种设置下的估算功耗，并可用于创建最佳参数设置，以实现性能与功耗之间的理想平衡。

我们已经更新了超级模式的电力估算工具。我们强烈建议您使用电力估算工具，并在高性能应用部署之前进行实际验证。

提升热门生成性 AI 模型的性能

随着 JetPack 6.2 引入超级模式，Jetson Orin Nano 和 Jetson Orin NX 模块提供高达 2 倍的推理性能提升。我们基准测试了最流行的大型语言模型 (LLMs)、视觉语言模型 (VLMs) 和视觉transformer (ViTs)。

大型语言模型

以下图表和表格显示了流行的 LLMs 的超级模式性能基准，如 Llama3.1 8B、Qwen2.5 7B 和 Gemma2 2B。

A bar chart summarizes the performance improvements of seven LLMs when run using Super Mode on the Orin Nano 4GB, Orin Nano 8GB, Orin NX 8GB, and Orin NX 16GB modules.

图 1. 使用超级模式的 LLMs 性能提升

DNR 意味着模块上的内存不足以运行特定模型。模型性能将受到限制行为的影响。

在下表中，LLM 生成性能（每秒令牌数）在使用 MLC API 的 INT4 量化下进行了测量。

表 3 显示了在 JetPack 6.2 下，Jetson Orin Nano 4GB 上LLM的性能提升。

Model	Orin Nano 8GB（原版）	Orin Nano 8GB（超模式）	性能提升 (x)
Gemma 2 2B	11.40	18.60	1.64
SmolLM2 1.7B	23.00	35.80	1.56

表 3. Jetson Orin Nano 4GB 上流行LLMs的基准性能（以令牌/秒计）

表 4 显示了在 JetPack 6.2 下 Jetson Orin Nano 8GB 上LLM的性能提升。

Model	Orin Nano 8GB（原版）	Orin Nano 8GB（超模式）	性能提升 (x)
Llama 3.1 8B	14.00	19.10	1.37
Llama 3.2 3B	27.70	43.10	1.55
Qwen 2.5 7B	14.20	21.80	1.53
Gemma 2 2B	21.5	35.0	1.63
Gemma 2 9B	7.20	9.20	1.28
Phi-3.5 3.8B	24.70	38.10	1.54
SmolLM2 1.7B	41.00	64.50	1.57

表 4. 在 Jetson Orin Nano 8GB 上流行LLMs的基准性能（以每秒令牌数计）

表 5 显示了在 JetPack 6.2 下，Jetson Orin NX 8GB 上LLM的性能提升。

Model	Orin NX 8GB（原版）	Orin NX 8GB（超级模式）	性能提升 (x)
Llama 3.1 8B	15.90	23.10	1.46
Llama 3.2 3B	34.50	46.50	1.35
Qwen 2.5 7B	17.10	23.80	1.39
Gemma 2 2B	26.60	39.30	1.48
Gemma 2 9B	8.80	13.38	1.52
Phi-3.5 3.8B	30.80	41.30	1.34
SmolLM2 1.7B	51.50	69.80	1.35

表 5. Jetson Orin NX 8GB 上流行LLMs的标杆性能（以每秒令牌数计算）

表 6 显示了在 JetPack 6.2 下，Jetson Orin NX 16GB 上的LLM性能提升。

Model	Orin NX 16GB（原版）	Orin NX 16GB（超级模式）	性能提升 (x)
Llama 3.1 8B	20.50	22.80	1.11
Llama 3.2 3B	40.40	45.80	1.13
Qwen 2.5 7B	20.80	23.50	1.13
Gemma 2 2B	31.60	39.00	1.23
Gemma 2 9B	10.56	13.26	1.26
Phi-3.5 3.8B	35.90	40.90	1.14
SmolLM2 1.7B	59.50	68.80	1.16

表 6. Jetson Orin NX 和 Orin Nano 模块上流行 LLMs 的基准性能（以每秒 tokens 计）

视觉语言模型

以下图表和表格显示了如 VILA1.5 8B、LLAVA1.6 7B 和 Qwen2 VL 2B 等流行 VLM 的超级模式性能基准。

图 2. 在使用超级模式运行时 VLM 的性能提升

DNR 意味着模块上的内存不足以运行特定模型。模型性能将受到限制行为的影响。

表 7 显示了在 JetPack 6.2 下，Jetson Orin Nano 4GB 上的 VLM 性能提升。

Model	Orin Nano 4GB（原版）	Orin Nano 4GB（超级模式）	性能提升 (x)
PaliGemma2 3B	7.2	11.2	1.56

表 7. Jetson Orin Nano 4GB 上流行 VLM 的基准性能（以令牌/秒为单位）

表 8 显示了在 JetPack 6.2 下，Jetson Orin Nano 8GB 上 VLM 性能的提升。

Model	Orin NX 16GB（原版）	Orin NX 16GB（超级模式）	性能提升 (x)
VILA 1.5 3B	0.7	1.1	1.51
VILA 1.5 8B	0.6	0.8	1.45
LLAVA 1.6 7B	0.4	0.6	1.38
Qwen2 VL 2B	2.8	4.4	1.57
InternVL2.5 4B	2.5	5.1	2.04
PaliGemma2 3B	13.7	21.6	1.58
SmolVLM 2B	8.1	12.9	1.59

表 8. Jetson Orin Nano 8GB 上流行 VLM 的基准性能（以令牌/秒计）

表 9 显示了在 JetPack 6.2 下，Jetson Orin NX 8GB 上的 VLM 性能提升。

Model	Orin NX 16GB（原版）	Orin NX 16GB（超级模式）	性能提升 (x)
VILA 1.5 3B	0.8	1	1.25
VILA 1.5 8B	0.7	1.04	1.50
LLAVA 1.6 7B	0.5	1.2	2.54
Qwen2 VL 2B	3.4	4.8	1.41
InternVL2.5 4B	3	4.1	1.37
PaliGemma2 3B	17.1	23.9	1.40
SmolVLM 2B	9.7	14.4	1.48

表 9. Jetson Orin NX 16GB 上流行 VLM 的基准性能（以每秒令牌数计）

表 10 显示了使用 JetPack 6.2 的 Jetson Orin NX 16GB 上的 VLM 性能提升。

Model	Orin NX 16GB（原版）	Orin NX 16GB（超级模式）	性能提升 (x)
VILA 1.5 3B	1	1.3	1.23
VILA 1.5 8B	0.8	1	1.25
LLAVA 1.6 7B	0.6	0.7	1.07
Qwen2 VL 2B	4	4.8	1.20
InternVL2.5 4B	2.8	4.4	1.57
PaliGemma2 3B	20	23.8	1.19
SmolVLM 2B	11.7	14.3	1.22

表 10. Jetson Orin NX 和 Orin Nano 模块上流行 VLM 的基准性能（每秒令牌数）

所有 VILA 和 LLAVA 模型使用 MLC 以 INT4 精度运行，而其余模型使用 Hugging Face Transformers 以 FP4 精度运行。

视觉transformer

以下图表和表格展示了流行的 ViTs（如 CLIP、DINO 和 SAM2）的超级模式性能基准。

图 3. 在使用超级模式运行时，ViTs 的性能提升

DNR 意味着模块上的内存不足以运行特定模型。模型性能将受到限制行为的影响。

表 11 显示了在 JetPack 6.2 下，ViT 在 Jetson Orin Nano 4GB 上的性能提升。

Model	Orin Nano 4GB（原版）	Orin Nano 4GB（超级模式）	性能提升 (x)
clip-vit-base-patch32	126.8	189.5	1.49
clip-vit-base-patch16	63.2	112.4	1.78
DINOv2-base-patch14	49.3	79.3	1.61
SAM2 基础	2.5	3.8	1.54
vit-base-patch16-224	62.4	103.3	1.66

表 11. Jetson Orin Nano 4GB 上流行 ViT 的基准性能（以 token/秒为单位）

表 12 显示了在 JetPack 6.2 下，ViT 在 Jetson Orin Nano 8GB 上的性能提升。

Model	Orin Nano 8GB（原版）	Orin Nano 8GB（超模式）	性能提升 (x)
clip-vit-base-patch32	196	314	1.60
clip-vit-base-patch16	95	161	1.69
DINOv2-base-patch14	75	126	1.68
SAM2 基础	4.4	6.3	1.43
Grounding DINO	4.1	6.2	1.52
vit-base-patch16-224	98	158	1.61
vit-base-patch32-224	171	273	1.60

表 12. Jetson Orin Nano 8GB 上流行 ViTs 的每秒标记基准性能

表 13 显示了在 JetPack 6.2 下，ViT 在 Jetson Orin NX 8GB 上的性能提升。

Model	Orin NX 8GB（原版）	Orin NX 8GB（超级模式）	性能提升 (x)
clip-vit-base-patch32	234.0	361.1	1.54
clip-vit-base-patch16	101.7	204.3	2.01
DINOv2-base-patch14	81.4	160.3	1.97
SAM2 基础	3.9	7.4	1.92
Grounding DINO	4.2	7.4	1.75
vit-base-patch16-224	98.6	192.5	1.95
vit-base-patch32-224	193.1	313.5	1.62

表 13. Jetson Orin NX 8GB 上流行 ViT 的基准性能（以每秒令牌数为单位）

表 14 显示了在 JetPack 6.2 下，ViT 在 Jetson Orin NX 16GB 上的性能提升。

Model	Orin NX 16GB（原版）	Orin NX 16GB（超级模式）	性能提升 (x)
clip-vit-base-patch32	323.2	356.7	1.10
clip-vit-base-patch16	163.5	193.6	1.18
DINOv2-base-patch14	127.5	159.8	1.25
SAM2 基础	6.2	7.3	1.18
Grounding DINO	6.2	7.2	1.16
vit-base-patch16-224	158.6	190.2	1.20
vit-base-patch32-224	281.2	309.5	1.10