TVM量化路线图roadmap

本文详细探讨了TVM中的量化实现,包括INT8量化方案、注释、校准和实现阶段。此外,还提到了TVM对TF和PyTorch量化模型的支持,并对比了与MXNet和TensorRT的性能。在实验中,量化模型在某些场景下能提供30%的速度提升,但也有情况显示INT8量化可能慢于INT16。文章提供了速度分析工具和TVM的优化策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

TVM量化路线图roadmap
INT8量化方案
本文介绍了量化过程的原理概述,提出了在TVM中实现量化过程的建议。
 介绍量子化的背景知识
 INT8量化-后端代码生成
 这个线程只关注TVM中量化层的实现
在这里插入图片描述

量子开发
基于搜索的自动量化
提出了一种新的量化框架,将硬件和训练方法结合起来。
借鉴已有的一些量化框架的思想,选择采用注释annotation,校准calibration,实现热啊;realization三阶段设计。
 Annotation注释:
注释过程pass根据每个算子的重写函数,重写图形并插入模拟量化操作。
模拟量化操作,模拟从浮点量化到整数的舍入误差和饱和误差,
 Calibration校准:
校准过程pass,将调整模拟量化操作的阈值,以减少精度下降。
 Realization实现:
实现过程pass,将实际用float32计算的仿真图,转化为一个真正的低精度整数图。
在这里插入图片描述

TVM支持的量化框架
TF量化相关
TVM支持所有预量化TFLite托管
 在Intel VNNI支持的C5.12xlarge Cascade lake机器上,对性能进行了评估
 尚未自动调化整模型
在这里插入图片描述
在这里插入图片描述

PYTORCH量子化相关

如何通过relay将模型转换为量化模型?
如何为torch.quantization.get\u default\u qconfig(‘fbgemm’)设置qconfig
量化模型精度基准:PyTorch vs TVM
如何将量化pytorch模型转换为tvm模型
比较resent18、resent5、mobilenet-v2、mobilenet-v3、inception\u v3和googlenet的准确度和速度。
在PYTORCH中包含静态量化和eager模式:PYTORCH的量化turorial。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值