Transformer端侧模型压缩——Mobile Transformer

本文介绍了针对端侧场景的Transformer模型压缩技术,包括Evolved Transformer、Lite Transformer、MobileBERT、MiniLM等,详细阐述了它们的结构优化和知识蒸馏策略,旨在实现模型小型化和效率提升。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

随着Transformer模型在NLP、ASR等序列建模中的普及应用,其在端侧等资源受限场景的部署需求日益增加。经典的mobile-transformer结构包括evolved tansformer、lite-transformer、mobile-bert、miniLM等模型,借助结构改进、知识蒸馏等策略实现了transformer模型的小型化、并确保精度鲁棒性。

 

1. The Evolved Transformer

Paper Link: https://arxiv.org/abs/1901.11117

GitHub: https://github.com/tensorflow/tensor2tensor/blob/master/tensor2tensor/models/evolved_transformer.py

Google基于NAS搜索获得的Transformer结构:

  1. 搜索空间:包括两个stackable cell,分别包含在transformer encoder与transformer decoder。每个cell由NAS-style block组成, 可通过左右两个block转换输入Embedding、再聚合获得新的Embedding,进一步输入到self-attention layer。
  2. 搜索策略:基于EA (Evolutional Aligorithm)的搜索策略;

网络结构如下:

2. Lite Transformer with Long-Short Range Attention

Paper Link: https://arxiv.org/abs/2004.11886

GitHub: https://github.com/mit-han-lab/lite-transformer

Lite Transformer是韩松组研究提出的一种高效、面向移动端部署的Transformer架构,其核心是长短距离注意力结构(Long-Short Range Attention,LSRA)。LSRA将输入Embedding沿feature维度split成两部分,其中一部分通过GLU、一维卷积,用以提取局部context信息;而另一部分依靠self-attention,用以负责全局相关性信息编码。

Lite Transformer核心结构如下:

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值