Roofline model 评估深度学习模型在GPU上运行的性能
本文使用Roofline model方式评估GeForce RTX 2060和TITAN V两款GPU上分别运行AlexNet以及VGGnet的性能。
- GPU性能参数
根据NVDIA官网数据,GeForce RTX 2060 的峰值算力是7.5 TFLOPS,存储器带宽是336GB/s,TITAN V的峰值算力是7.0 TFLOPS,存储器带宽是652.8GB/s。
图1 GPU算力数据(来自NVDIA官网)
图2 GeForce RTX 2060 访存性能(来自NVDIA官网)
图3 TITAN V 访存性能(来自NVDIA官网) - GPU的Roofline模型
图4和图5分别是GeForce RTX 2060和TITAN V的Roofline Model。
对于GeForce RTX 2060,当模型的计算密度小于22.27FLOP/BYTE时,模型的性能受GPU的带宽限制,当模型的计算密度大于22.27FLOP/BYTE时,模型的性能受GPU的峰值浮点运算速度限制。
对于TITAN V,当模型的计算密度小于10.755FLOP/BYTE时,模型的性能受GPU的带宽限制,当模型的计算密度大于10.755FLOP/BYTE时,模型的性能受GPU的峰值浮点运算速度限制。<