CUDA

2025年 7月 18日

使用 JAX 和 XLA 优化推理工作负载的低延迟通信

在生产环境中使用大语言模型 (LLM) 进行推理需要满足严格的延迟限制。此过程的关键阶段是 LLM 解码，

2 MIN READ

2025年 7月 16日

CUTLASS：基于张量和空间微核处理多维数据的原理抽象

在生成式 AI 时代，充分发挥 GPU 的潜力对于训练更好的模型和大规模服务用户至关重要。通常，

4 MIN READ

2025年 7月 16日

CUTLASS 3.x：用于 GEMM 内核设计的正交、可重用和组合抽象

GPU 上的 GEMM 优化是一个模块化问题。高性能实现需要指定超参数，例如图块形状、数学和复制指令以及线程束专用方案。

3 MIN READ

2025年 7月 9日

为 NVIDIA CUDA 内核融合提供 Python 中缺失的构建模块

CUB 和 Thrust 等 C++ 库提供高级构建块，使 NVIDIA CUDA 应用和库开发者能够编写跨架构可移植的光速代码。

2 MIN READ

2025年 7月 2日

先进的 NVIDIA CUDA 内核优化技术：手写 PTX

随着加速计算不断提升 AI 和科学计算各个领域的应用程序性能，人们对 GPU 优化技术的兴趣也越来越浓厚，以确保应用程序获得尽可能好的性能。

3 MIN READ

2025年 6月 18日

NVIDIA 在制造和运营领域的 AI 应用：借助 NVIDIA CUDA-X 数据科学加速 ML 模型

从晶圆制造和电路探测到封装芯片测试，NVIDIA 利用数据科学和机器学习来优化芯片制造和运营工作流程。这些阶段会产生 TB 级的数据，

3 MIN READ

2025年 6月 18日

编译器资源管理器：CUDA 开发者必备的内核实验室

您是否曾想过，当您编写 GPU 核函数时，CUDA 编译器究竟会生成什么？是否曾想与同事轻松分享精简的 CUDA 示例，

2 MIN READ

2025年 6月 17日

R²D²：利用 NVIDIA Research 构建AI驱动的3D机器人感知与地图构建技术

机器人必须感知和解释其 3D 环境，才能安全有效地行动。这对于非结构化或陌生空间中的自主导航、对象操作和远程操作等任务尤为重要。

3 MIN READ

2025年 6月 12日

借助 MMseqs2-GPU 和 NVIDIA NIM 加速蛋白质科学序列对齐

蛋白质序列对齐 (比较蛋白质序列的相似性) 是现代生物学和医学的基础。它通过重建进化关系 (技术上称为 homology…

3 MIN READ

2025年 6月 11日

使用 Siemens Teamcenter 数字现实查看器打造栩栩如生的数字孪生

现代产品通常由数百万个部件组成，需要复杂的设计和协作。工业世界在管理复杂性方面面临重大挑战，传统的可视化工具无法渲染这些大型、

1 MIN READ

2025年 6月 4日

借助 NVIDIA 多进程服务更大限度地提高 OpenMM 分子动力学吞吐量

分子动力学 (MD) 模拟模拟原子在一段时间内的相互作用，并且需要强大的计算能力。然而，许多模拟的系统规模很小 (约 400K 个原子) ，

3 MIN READ

2025年 5月 23日

AI 将脑部 MRI 转化为潜在的中风预测因子

研究人员使用 AI 分析常规脑部扫描，发现了一种前景良好的新方法，可以可靠地识别常见但难以检测的多中风先兆。

1 MIN READ

2025年 5月 22日

Blackwell 借助 Meta 的 Llama 4 Maverick 突破 1000 TPS/ 用户门槛

NVIDIA 的大语言模型 (LLM) 推理速度创下了世界纪录。在包含 400 亿参数的 Llama 4 Maverick 模型 (…

3 MIN READ

2025年 5月 9日

CUDA C++ 编译器更新对 ELF 可见性和链接影响

在下一个 CUDA 主要版本 CUDA 13.0 中，NVIDIA 将对 NVIDIA CUDA 编译器驱动程序 (NVCC)…

4 MIN READ

2025年 5月 2日

CUDA 入门教程：更简单的介绍 (更新版)

注意：本博文最初发布于 2017 年 1 月 25 日，但已进行编辑以反映新的更新。本文非常简单地介绍了 CUDA，

5 MIN READ

2025年 5月 1日

借助 NVIDIA cuBLAS 12.9 提高矩阵乘法速度和灵活性

NVIDIA CUDA-X 数学库助力开发者为 AI、科学计算、数据处理等领域构建加速应用。

3 MIN READ