AI 逻辑推理和网络成为 Hot Chips 大会的首要焦点。
Hot Chips 是一个面向行业和学术界的关于处理器及系统架构的重要论坛,在 8 月 24 – 26 日于斯坦福大学举办,旨在展示创新成果,推动 AI 工厂发展,助力万亿美元的数据中心计算市场。
大会期间,NVIDIA 与谷歌 (Google) 和微软 (Microsoft) 等行业领导者在 8 月 24 日星期日一起举办了一场“授课式”会议 – 探讨如何为数据中心设计以机柜为单位的新架构。
此外,NVIDIA 专家还在四场会议和一场课程中详细介绍了:
- NVIDIA 网络 (包括 NVIDIA ConnectX-8 SuperNIC) 支持机整柜和数据中心规模的 AI 逻辑推理。(由 NVIDIA 负责网卡和 SoC 的首席架构师 Idan Burstein 主讲)
- 由 NVIDIA Blackwell 架构所支持的神经渲染的进步及推理能力的巨大飞跃 — 从而提供更高级别的图形和仿真功能。(由 NVIDIA 系统架构高级总监 Marc Blackstein 主讲)
- 基于硅光技术的 NVIDIA CPO 交换机 — 采用光速光纤取代铜缆,可更快地传送信息,并且功耗更低 – 助力打造高效、高性能的十亿瓦级 AI 工厂。本次演讲还将重点介绍 NVIDIA Spectrum-XGS 以太网,这是一种新的跨地域扩展技术,可将多个分布式数据中心组合为 AI 超级工厂。(由 NVIDIA 网络高级副总裁 Gilad Shainer 主讲)
- NVIDIA GB10 超级芯片成为 NVIDIA DGX Spark 台式超级计算机的引擎。(由 NVIDIA 高级杰出工程师 Andi Skende 主讲)
这些都是 NVIDIA 的最新技术如何正在通过加速推理来推动各个领域和各种规模的 AI 创新的一部分。
NVIDIA 网络促进了大规模的 AI 创新
AI 逻辑推理 — 指的是人工智能系统可以通过多个 AI 推理步骤来分析和解决复杂问题 — 这需要机柜级规模的性能,以便高效地提供最佳的用户体验。
如今,为 AI 工作负载提供动力的数据中心里,网络如同中枢神经系统一样 — 将所有组件 (服务器、存储设备和其他硬件) 统一连接成 一个强大的计算单元。

Burstein 在 Hot Chips 大会上的报告将会深入探讨 NVIDIA 网络技术 (特别是 NVIDIA ConnectX-8 SuperNIC) 如何实现高速、低延迟的多 GPU 通信,并在大规模场景下提供领先的 AI 逻辑推理性能。
作为 NVIDIA 网络平台的一部分,NVIDIA NVLink、NVLink Switch 和 NVLink Fusion 提供了纵向扩展 (scale-up) 连接 – 能够在服务器内部及跨服务器连接 GPU 和计算元件,实现超低延迟、高带宽的数据交换。
NVIDIA Spectrum-X 以太网提供了横向扩展 (Scale Out) 来连接整个集群,能够快速将海量数据集导入到 AI 模型中,并编排数据中心内的 GPU 到 GPU 的通信。Spectrum-XGS 跨区域扩展 (scale-across) 技术将 Spectrum-X 以太网的卓越性能和扩展能力扩展到多个分布式数据中心,组成十亿瓦级的智能 AI 超级工厂。

NVIDIA Spectrum-XGS 以太网连接多个分布式 AI 数据中心。
作为 Spectrum-X Ethernet 的核心,CPO 交换机推升了大规模 AI 基础设施的性能和效率极限。Shainer 将在其演讲中详细介绍这一内容。
NVIDIA Blackwell NVL72 — 单机柜百亿亿级 (Exascale) 计算机 — 配备了 36 个 NVIDIA 超级芯片,其中每组芯片包含 2 个 NVIDIA GPU 和 1 个 NVIDIA CPU,通过目前最大的 NVLink 域实现互连。NVLink 交换机为 AI 和高性能计算工作负载提供每秒 130 TB/s 的低延迟 GPU 通信。

NVIDIA Spectrum-XGS 以太网连接多个分布式 AI 数据中心。
数以百万计的开发者们通过 NVIDIA Blackwell 和 CUDA 走进了 AI
NVIDIA GeForce RTX 5090 D v2 GPU (同样由 Blackwell 提供支持) — 通过 NVIDIA DLSS 4 技术将当今游戏中的 AI 性能翻倍。
它还能够为游戏添加神经网络渲染功能,提供至高可达 10 倍的性能提升、10 倍的存储空间扩展,并将设计周期缩短 10 倍,有助于增强计算机图形和仿真中的逼真度。这不但在低功耗的情况下提供了流畅、灵敏的视觉体验,而且大大提升了游戏角色和特效的拟真度。
NVIDIA CUDA 是全球应用最广泛的计算基础设施,让用户能在任何地方利用 NVIDIA Blackwell 部署与运行 AI 模型。
全球已有数亿台的 GPU 运行 CUDA,从 NVIDIA Blackwell NVL72 机架规模的系统到搭载 GeForce RTX 和 NVIDIA RTX PRO 的 PC 和工作站,包括由 NVIDIA GB10 提供支持的 NVIDIA DGX Spark (在 Skende 的会议中讨论过的) 也即将发布。
从算法到 AI 超级计算机 — 对大语言模型 (LLM) 的全面优化

通过开源协作推动推理创新
NVIDIA 通过加速各种开放源代码库和框架,来加速和优化 LLM 和分布式推理的 AI 工作负载。这些平台包括 NVIDIA TensorRT-LLM、NVIDIA Dynamo、TileIR、Cutlass、NVIDIA 集合通信库和 NIXL — 它们都已被集成到数百万个工作流中。
为了支持开发者们能够使用自己的框架,NVIDIA 已与顶级开放框架供应商合作,为 FlashInfer、PyTorch、SGLang、vLLM 等提供模型优化。
此外,NVIDIA NIM 微服务也可用于 OpenAI 的 gpt-oss 和 Llama 4 等热门开放模型,使开发者能够轻松地在其喜欢的基础设施上,像运行自托管模型一样灵活安全地操作托管应用程序界面。
参与 NVIDIA 在 Hot Chips 大会上的活动,以了解推理和加速计算的最新进展。