NVIDIA 开发者博客

生成式人工智能/大语言模型

突破延迟极限：在 NVIDIA Blackwell GPU 上优化 DeepSeek-R1 的性能
数据中心/云端

LLM 推理基准测试：使用 TensorRT-LLM 进行性能调优
数据中心/云端

使用 DPU 加速的 Kubernetes 服务代理增强 AI 工厂
模拟/建模/设计

NVIDIA cuQuantum 增加了动态梯度、DMRG 和模拟加速
数据科学

提出一个维基百科规模的问题：如何利用数百万 token 的实时推理使世界更加智能

突破延迟极限：在 NVIDIA Blackwell GPU 上优化 DeepSeek-R1 的性能

近年来，大语言逻辑推理模型取得了显著进步，但也带来了新的部署挑战。其中，因复杂的“思考与逻辑推理”过程而引起的输出序列长度 (OSL)…

3 MIN READ

2025年 7月 7日

LLM 推理基准测试：使用 TensorRT-LLM 进行性能调优

这是大语言模型延迟 – 吞吐量基准测试系列的第三篇博文，旨在指导开发者如何使用 TensorRT-LLM 对 LLM 推理进行基准测试。

3 MIN READ

2025年 7月 7日

使用 DPU 加速的 Kubernetes 服务代理增强 AI 工厂

随着 AI 借助代理式 AI 向规划、研究和推理发展，工作流变得越来越复杂。为了高效部署代理式 AI 应用，AI 云需要软件定义、

2 MIN READ

2025年 7月 7日

NVIDIA cuQuantum 增加了动态梯度、DMRG 和模拟加速

NVIDIA cuQuantum 是一个包含优化库和工具的 SDK，可将电路和设备级别的量子计算模拟加速几个数量级。

1 MIN READ

2025年 7月 7日

提出一个维基百科规模的问题：如何利用数百万 token 的实时推理使世界更加智能

现代 AI 应用越来越依赖于将庞大的参数数量与数百万个令牌的上下文窗口相结合的模型。无论是经过数月对话的 AI 智能体、

3 MIN READ

2025年 7月 3日

新视频：使用 NVIDIA Data Flywheel Blueprint 构建可自我提升的 AI 代理

由大语言模型驱动的 AI 智能体正在改变企业工作流，但高昂的推理成本和延迟可能会限制其可扩展性和用户体验。为解决这一问题，

1 MIN READ

2025年 7月 3日

RAPIDS 新增 GPU Polars 串流、统一 GNN API 和零代码 ML 加速功能

RAPIDS 是一套用于 Python 数据科学的 NVIDIA CUDA-X 库，发布了 25.06 版本，引入了令人兴奋的新功能。

2 MIN READ

2025年 7月 2日

通过低精度量化优化用于图像编辑的 FLUX.1 Kontext

FLUX.1 Kontext 是 Black Forest Labs 最近发布的模型，是对社区图像生成模型的一项令人着迷的补充。

3 MIN READ

增强现实/虚拟现实

查看全部

2025年 5月 18日

聚焦：Perfect Corp. 利用 NVIDIA TensorRT 和 NVENC 实现个性化的数字化美妆体验

增强现实 (AR) 和 AI 通过提供从虚拟试用到 AI 驱动的造型推荐等超个性化体验，正在彻底改变美妆和时尚行业。

1 MIN READ

2025年 5月 6日

借助 NVIDIA RTX PRO Blackwell 台式机 GPU 实现 Rivian 新一代XR 设计

对于不断突破 XR 界限的专业人士而言，打造身临其境的高保真体验始终充满挑战。在渲染大型数据集和驱动最新的超高分辨率高级 XR 头显设备时，

2 MIN READ

2025年 3月 5日

借助 NVIDIA Omniverse 将 AR 体验串流到 Apple iPad

最近在 MWC 巴塞罗那宣布，开发者现在可以将使用 NVIDIA Omniverse 构建的增强现实（AR）体验流式传输到 Apple…

1 MIN READ

2025年 2月 24日

在 NVIDIA 视频编解码器 SDK 13.0 中使用 MV-HEVC 启用立体和 3D 视图

NVIDIA 宣布在最新的 NVIDIA 视频编解码器 SDK 版本 13.0 中实施多视图高效视频编码 (MV-HEVC) 编码器。

2 MIN READ

2025年 1月 6日

利用 NVIDIA Omniverse 空间流，在 XR 中体验数字孪生技术

空间计算体验正在转变我们与数据的交互方式，通过扩展现实 (XR) 和数字孪生等技术连接物理和数字世界。

2 MIN READ

2024年 10月 24日

利用 NVIDIA Morpheus 加速警报分流和 LLM 代理强化安全运营中心

安全运营中心（SOC）分析师每天都会收到大量传入的安全警报。为了确保其组织的持续安全，他们的任务是仔细检查传入的噪音，分拣出误报，

1 MIN READ

2024年 10月 22日

多代理 AI 和 GPU 驱动的声音转文本技术创新

自动音频字幕 (Automated Audio Captioning) 任务的核心是从音频输入中生成自然语言描述。鉴于输入 (音频) 和输出…

2 MIN READ

2024年 10月 14日

AI 驱动模拟和数字孪生技术助力手术机器人技术创新发展

在手术室中集成机器人手术助手（RSAs）为外科医生和患者的治疗效果带来了巨大的优势。目前，

1 MIN READ

数据科学

查看全部

2025年 7月 1日

适用于有效 FP8 训练的按张量和按块扩展策略

在本博文中，我们将分解主要的 FP8 缩放策略 (按张量缩放、延迟和电流缩放以及按块缩放 (包括 Blackwell 支持的 MXFP8…

2 MIN READ

2025年 6月 27日

AI 分析护士观察记录以降低患者危险

研究人员开发了一款 AI 赋能的工具，可以分析护士的轮班笔记，从而比传统方法更早地识别入院患者的健康状况可能恶化或处于“崩溃”的边缘…

1 MIN READ

2025年 6月 27日

如何在 Polars GPU 引擎中处理超过 VRAM 的数据

在量化金融、算法交易和欺诈检测等高风险领域，数据从业者经常需要处理数百 GB 的数据，才能快速做出明智的决策。

1 MIN READ

2025年 6月 25日

提高嵌入模型准确性，实现定制化信息检索

自定义嵌入模型对于有效的信息检索至关重要，尤其是在处理法律文本、病历或多轮客户对话等特定领域的数据时。通用、

2 MIN READ

2025年 6月 25日

如何使用 NVIDIA NeMo 技能简化复杂的 LLM 工作流程

改进 LLM 的典型方法涉及多个阶段：合成数据生成 (SDG) 、通过监督式微调 (SFT) 或强化学习 (RL) 进行模型训练以及模型评估。

4 MIN READ

2025年 6月 18日

NVIDIA 在制造和运营领域的 AI 应用：借助 NVIDIA CUDA-X 数据科学加速 ML 模型

从晶圆制造和电路探测到封装芯片测试，NVIDIA 利用数据科学和机器学习来优化芯片制造和运营工作流程。这些阶段会产生 TB 级的数据，

3 MIN READ

2025年 6月 18日

借助 NVIDIA NIM 推理微服务和 ITMonitron 实现实时 IT 事故检测和情报

在当今快节奏的 IT 环境中，并非所有事件都始于明显的警报。这些问题可能始于细微的分散信号、错过的警报、悄无声息的 SLO 漏洞，

2 MIN READ

2025年 6月 16日

人工智能致力于为法律领域带来秩序

斯坦福大学的一个研究团队开发了一个 LLM 系统，以减少官样文章。被称为“System for Statutory Research”…

1 MIN READ

NVIDIA 技术博客

突破延迟极限：在 NVIDIA Blackwell GPU 上优化 DeepSeek-R1 的性能

LLM 推理基准测试：使用 TensorRT-LLM 进行性能调优

使用 DPU 加速的 Kubernetes 服务代理增强 AI 工厂

NVIDIA cuQuantum 增加了动态梯度、DMRG 和模拟加速

提出一个维基百科规模的问题：如何利用数百万 token 的实时推理使世界更加智能

最近

突破延迟极限：在 NVIDIA Blackwell GPU 上优化 DeepSeek-R1 的性能

LLM 推理基准测试：使用 TensorRT-LLM 进行性能调优

使用 DPU 加速的 Kubernetes 服务代理增强 AI 工厂

NVIDIA cuQuantum 增加了动态梯度、DMRG 和模拟加速

提出一个维基百科规模的问题：如何利用数百万 token 的实时推理使世界更加智能

新视频：使用 NVIDIA Data Flywheel Blueprint 构建可自我提升的 AI 代理

RAPIDS 新增 GPU Polars 串流、统一 GNN API 和零代码 ML 加速功能

通过低精度量化优化用于图像编辑的 FLUX.1 Kontext

增强现实/虚拟现实

聚焦：Perfect Corp. 利用 NVIDIA TensorRT 和 NVENC 实现个性化的数字化美妆体验

借助 NVIDIA RTX PRO Blackwell 台式机 GPU 实现 Rivian 新一代XR 设计

借助 NVIDIA Omniverse 将 AR 体验串流到 Apple iPad

在 NVIDIA 视频编解码器 SDK 13.0 中使用 MV-HEVC 启用立体和 3D 视图

利用 NVIDIA Omniverse 空间流，在 XR 中体验数字孪生技术

利用 NVIDIA Morpheus 加速警报分流和 LLM 代理强化安全运营中心

多代理 AI 和 GPU 驱动的声音转文本技术创新

AI 驱动模拟和数字孪生技术助力手术机器人技术创新发展

数据科学

适用于有效 FP8 训练的按张量和按块扩展策略

AI 分析护士观察记录以降低患者危险

如何在 Polars GPU 引擎中处理超过 VRAM 的数据

提高嵌入模型准确性，实现定制化信息检索

如何使用 NVIDIA NeMo 技能简化复杂的 LLM 工作流程

NVIDIA 在制造和运营领域的 AI 应用：借助 NVIDIA CUDA-X 数据科学加速 ML 模型

借助 NVIDIA NIM 推理微服务和 ITMonitron 实现实时 IT 事故检测和情报

人工智能致力于为法律领域带来秩序