TVM量化路线图roadmap

最新推荐文章于 2025-06-30 09:01:12 发布

wujianming_110117

最新推荐文章于 2025-06-30 09:01:12 发布

阅读量523

点赞数

CC 4.0 BY-SA版权

分类专栏：芯片工艺&nm纳米制程 AICompiler&AIFramework 人工智能训练与推理

吴建明

本文链接：https://blog.csdn.net/wujianing_110117/article/details/118887459

本文详细探讨了TVM中的量化实现，包括INT8量化方案、注释、校准和实现阶段。此外，还提到了TVM对TF和PyTorch量化模型的支持，并对比了与MXNet和TensorRT的性能。在实验中，量化模型在某些场景下能提供30%的速度提升，但也有情况显示INT8量化可能慢于INT16。文章提供了速度分析工具和TVM的优化策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

TVM量化路线图roadmap
INT8量化方案
本文介绍了量化过程的原理概述，提出了在TVM中实现量化过程的建议。
 介绍量子化的背景知识
 INT8量化-后端代码生成
 这个线程只关注TVM中量化层的实现
在这里插入图片描述

量子开发
基于搜索的自动量化
提出了一种新的量化框架，将硬件和训练方法结合起来。
借鉴已有的一些量化框架的思想，选择采用注释annotation，校准calibration，实现热啊；realization三阶段设计。
 Annotation注释：
注释过程pass根据每个算子的重写函数，重写图形并插入模拟量化操作。
模拟量化操作，模拟从浮点量化到整数的舍入误差和饱和误差，
 Calibration校准：
校准过程pass，将调整模拟量化操作的阈值，以减少精度下降。
 Realization实现：
实现过程pass，将实际用float32计算的仿真图，转化为一个真正的低精度整数图。
在这里插入图片描述

TVM支持的量化框架
TF量化相关
TVM支持所有预量化TFLite托管
 在Intel VNNI支持的C5.12xlarge Cascade lake机器上，对性能进行了评估
 尚未自动调化整模型
在这里插入图片描述

PYTORCH量子化相关

如何通过relay将模型转换为量化模型？
如何为torch.quantization.get\u default\u qconfig（‘fbgemm’）设置qconfig
量化模型精度基准：PyTorch vs TVM
如何将量化pytorch模型转换为tvm模型
比较resent18、resent5、mobilenet-v2、mobilenet-v3、inception\u v3和googlenet的准确度和速度。
在PYTORCH中包含静态量化和eager模式：PYTORCH的量化turorial。