转载请注明出处:小锋学长生活大爆炸[xfxuezhagn.cn] 如果本文帮助到了你,欢迎[点赞、收藏、关注]哦~
注意,不同GPU的架构可能略有区别。
简略图(个人理解所绘):
GV100芯片架构:
SM架构:
适用于 Pascal、Turing、Ampere 的 NVIDIA SM架构:
架构的升级,其中一点是对Tensor core的升级。利用 Tensor Core 可以加速 FP16 下的矩阵乘法。在pytorch中可以通过开启“混合精度”来使用Tensor Core。
混合精度推理是通过混合使用单精度(FP32)和半精度(FP16)来加速神经网络推理过程。相较于使用单精度(FP32)进行推理,既能能减少内存/显存占用,推理更大的网络,又能降低显存访问和计算耗时开销,在保证模型推理精度持平的情形下,提升推理效率。
混合精度推理使用半精度浮点(FP16)和单精度(FP32)浮点即可达到与使用纯单精度推理相同的准确率,并可加速模型的推理速度,这主要得益于英伟达从Volta架构开始推出的Tensor Core技术。在使用FP16计算时具有如下特点:
矩阵乘使用建议如下:
根据Tensor Core使用建议,当矩阵维数 M、N、K 是8(A100架构GPU为16)的倍数时(FP16数据下),性能最优。
卷积计算使用建议如下: