TVM量化路线图roadmap
INT8量化方案
本文介绍了量化过程的原理概述,提出了在TVM中实现量化过程的建议。
介绍量子化的背景知识
INT8量化-后端代码生成
这个线程只关注TVM中量化层的实现
量子开发
基于搜索的自动量化
提出了一种新的量化框架,将硬件和训练方法结合起来。
借鉴已有的一些量化框架的思想,选择采用注释annotation,校准calibration,实现热啊;realization三阶段设计。
Annotation注释:
注释过程pass根据每个算子的重写函数,重写图形并插入模拟量化操作。
模拟量化操作,模拟从浮点量化到整数的舍入误差和饱和误差,
Calibration校准:
校准过程pass,将调整模拟量化操作的阈值,以减少精度下降。
Realization实现:
实现过程pass,将实际用float32计算的仿真图,转化为一个真正的低精度整数图。
TVM支持的量化框架
TF量化相关
TVM支持所有预量化TFLite托管
在Intel VNNI支持的C5.12xlarge Cascade lake机器上,对性能进行了评估
尚未自动调化整模型
PYTORCH量子化相关
如何通过relay将模型转换为量化模型?
如何为torch.quantization.get\u default\u qconfig(‘fbgemm’)设置qconfig
量化模型精度基准:PyTorch vs TVM
如何将量化pytorch模型转换为tvm模型
比较resent18、resent5、mobilenet-v2、mobilenet-v3、inception\u v3和googlenet的准确度和速度。
在PYTORCH中包含静态量化和eager模式:PYTORCH的量化turorial。