【知识】简单易懂GPU架构图解和Tensor Core

小锋学长生活大爆炸

发布于 2025-05-24 13:11:47

4060

转载请注明出处：小锋学长生活大爆炸[xfxuezhagn.cn] 如果本文帮助到了你，欢迎[点赞、收藏、关注]哦~
注意，不同GPU的架构可能略有区别。

简略图(个人理解所绘)：

GV100芯片架构：

SM架构：

适用于 Pascal、Turing、Ampere 的 NVIDIA SM架构：

架构的升级，其中一点是对Tensor core的升级。利用 Tensor Core 可以加速 FP16 下的矩阵乘法。在pytorch中可以通过开启“混合精度”来使用Tensor Core。

混合精度推理是通过混合使用单精度（FP32）和半精度（FP16）来加速神经网络推理过程。相较于使用单精度（FP32）进行推理，既能能减少内存/显存占用，推理更大的网络，又能降低显存访问和计算耗时开销，在保证模型推理精度持平的情形下，提升推理效率。

混合精度推理-PaddlePaddle深度学习平台

混合精度推理使用半精度浮点（FP16）和单精度（FP32）浮点即可达到与使用纯单精度推理相同的准确率，并可加速模型的推理速度，这主要得益于英伟达从Volta架构开始推出的Tensor Core技术。在使用FP16计算时具有如下特点：

FP16可降低一半的内存带宽和存储需求，这使得在相同的硬件条件下研究人员可使用更大更复杂的模型以及更大的batch size大小。
FP16可以充分利用英伟达Volta、Turing、Ampere架构GPU提供的Tensor Cores技术。在相同的GPU硬件上，Tensor Cores的FP16计算吞吐量是FP32的8倍。

矩阵乘使用建议如下：

根据Tensor Core使用建议，当矩阵维数 M、N、K 是8（A100架构GPU为16）的倍数时（FP16数据下），性能最优。

卷积计算使用建议如下：