模型部署踩坑(持续更新ing)

原创于 2023-10-16 12:45:03 发布 · 306 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

多模态专栏收录该内容

14 篇文章

订阅专栏

本文详细阐述了模型部署过程中遇到的各种问题，包括FLOPs的局限性、TensorRT的优化限制、CUDACore和TensorCore使用、前处理/后处理overhead以及如何利用TensorRT和NVIDIA工具进行性能分析。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

模型部署踩坑
踩坑1
踩坑2
踩坑3
踩坑4
踩坑5

模型部署踩坑

踩坑1

FLOPs不能衡量模型性能，因为FLOPs只是模型计算大小的单位

还需要考虑

访存量
跟计算无关的DNN部分(reshape, shortcut, nchw2nhwc等等)
DNN以外的部分(前处理、后处理这些)

踩坑2

不能够完全依靠TensorRT

TensorRT可以对模型做适当的优化，但是有上限

计算密度低的1x1 conv， depthwise conv不会重构
GPU无法优化的地方会到CPU执行(可以手动修改代码实现部分，让部分cpu执行转到gpu执行)
有些冗长的计算，TensorRT可能不能优化（直接修改代码实现部分）
存在TensorRT尚未支持的算子（可以自己写plugin）
TensorRT不一定会分配Tensor Core（因为TensorRT kernel auto tuning会选择最合适的kernel）

踩坑3

CUDA Core和Tensor Core的使用

有的时候TensorRT并不会分配Tensor Core

kernel auto tuning自动选择最优解
所以有时会出现类似于INT8的速度比FP16反而慢了
使用Tensor Core需要让tensor size为8或者16的倍数

踩坑4

不能忽视前处理/后处理的overhead

对于一些轻量的模型，相比于DNN推理部分，前处理/后处理可能会更耗时间
因为有些前处理/后处理的复杂逻辑不适合GPU并行

解决办法：

可以把前处理/后处理中可并行的地方拿出来让GPU并行（比如RGB2BGR, Normalization, resize,crop, NCHW2NHWC）
可以在cpu上使用一些针对图像处理的优化库
比如Halide（使用Halide进行blur, resize, crop, DBSCAN, sobel这些会比CPU快）

踩坑5

对使用TensorRT得到的推理引擎做benchmark和profiling

使用TensorRT得到推理引擎并实现infer只是优化的第一步
需要使用NVIDIA提供的benchmark tools进行profiling

分析模型瓶颈在哪里
分析模型可进一步优化的地方在哪里
分析模型中多余的memory access在哪里

可以使用nsys, nvprof, dlprof, Nsight这些工具

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

莫余 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。