CUDA

2025年 7月 18日
使用 JAX 和 XLA 优化推理工作负载的低延迟通信
在生产环境中使用大语言模型 (LLM) 进行推理需要满足严格的延迟限制。此过程的关键阶段是 LLM 解码,
2 MIN READ

2025年 7月 16日
CUTLASS:基于张量和空间微核处理多维数据的原理抽象
在生成式 AI 时代,充分发挥 GPU 的潜力对于训练更好的模型和大规模服务用户至关重要。通常,
4 MIN READ

2025年 7月 16日
CUTLASS 3.x:用于 GEMM 内核设计的正交、可重用和组合抽象
GPU 上的 GEMM 优化是一个模块化问题。高性能实现需要指定超参数,例如图块形状、数学和复制指令以及线程束专用方案。
3 MIN READ

2025年 7月 9日
为 NVIDIA CUDA 内核融合提供 Python 中缺失的构建模块
CUB 和 Thrust 等 C++ 库提供高级构建块,使 NVIDIA CUDA 应用和库开发者能够编写跨架构可移植的光速代码。
2 MIN READ

2025年 7月 2日
先进的 NVIDIA CUDA 内核优化技术:手写 PTX
随着加速计算不断提升 AI 和科学计算各个领域的应用程序性能,人们对 GPU 优化技术的兴趣也越来越浓厚,以确保应用程序获得尽可能好的性能。
3 MIN READ

2025年 6月 18日
NVIDIA 在制造和运营领域的 AI 应用:借助 NVIDIA CUDA-X 数据科学加速 ML 模型
从晶圆制造和电路探测到封装芯片测试,NVIDIA 利用数据科学和机器学习来优化芯片制造和运营工作流程。这些阶段会产生 TB 级的数据,
3 MIN READ

2025年 6月 18日
编译器资源管理器:CUDA 开发者必备的内核实验室
您是否曾想过,当您编写 GPU 核函数时,CUDA 编译器究竟会生成什么?是否曾想与同事轻松分享精简的 CUDA 示例,
2 MIN READ

2025年 6月 17日
R²D²:利用 NVIDIA Research 构建AI驱动的3D机器人感知与地图构建技术
机器人必须感知和解释其 3D 环境,才能安全有效地行动。这对于非结构化或陌生空间中的自主导航、对象操作和远程操作等任务尤为重要。
3 MIN READ

2025年 6月 12日
借助 MMseqs2-GPU 和 NVIDIA NIM 加速蛋白质科学序列对齐
蛋白质序列对齐 (比较蛋白质序列的相似性) 是现代生物学和医学的基础。它通过重建进化关系 (技术上称为 homology…
3 MIN READ

2025年 6月 11日
使用 Siemens Teamcenter 数字现实查看器打造栩栩如生的数字孪生
现代产品通常由数百万个部件组成,需要复杂的设计和协作。工业世界在管理复杂性方面面临重大挑战,传统的可视化工具无法渲染这些大型、
1 MIN READ

2025年 6月 4日
借助 NVIDIA 多进程服务更大限度地提高 OpenMM 分子动力学吞吐量
分子动力学 (MD) 模拟模拟原子在一段时间内的相互作用,并且需要强大的计算能力。然而,许多模拟的系统规模很小 (约 400K 个原子) ,
3 MIN READ

2025年 5月 23日
AI 将脑部 MRI 转化为潜在的中风预测因子
研究人员使用 AI 分析常规脑部扫描,发现了一种前景良好的新方法,可以可靠地识别常见但难以检测的多中风先兆。
1 MIN READ

2025年 5月 22日
Blackwell 借助 Meta 的 Llama 4 Maverick 突破 1000 TPS/ 用户门槛
NVIDIA 的大语言模型 (LLM) 推理速度创下了世界纪录。在包含 400 亿参数的 Llama 4 Maverick 模型 (…
3 MIN READ

2025年 5月 9日
CUDA C++ 编译器更新对 ELF 可见性和链接影响
在下一个 CUDA 主要版本 CUDA 13.0 中,NVIDIA 将对 NVIDIA CUDA 编译器驱动程序 (NVCC)…
4 MIN READ

2025年 5月 2日
CUDA 入门教程:更简单的介绍 (更新版)
注意:本博文最初发布于 2017 年 1 月 25 日,但已进行编辑以反映新的更新。 本文非常简单地介绍了 CUDA,
5 MIN READ

2025年 5月 1日
借助 NVIDIA cuBLAS 12.9 提高矩阵乘法速度和灵活性
NVIDIA CUDA-X 数学库助力开发者为 AI、科学计算、数据处理等领域构建加速应用。
3 MIN READ