随着Transformer模型在NLP、ASR等序列建模中的普及应用,其在端侧等资源受限场景的部署需求日益增加。经典的mobile-transformer结构包括evolved tansformer、lite-transformer、mobile-bert、miniLM等模型,借助结构改进、知识蒸馏等策略实现了transformer模型的小型化、并确保精度鲁棒性。
1. The Evolved Transformer
Paper Link: https://arxiv.org/abs/1901.11117
Google基于NAS搜索获得的Transformer结构:
- 搜索空间:包括两个stackable cell,分别包含在transformer encoder与transformer decoder。每个cell由NAS-style block组成, 可通过左右两个block转换输入Embedding、再聚合获得新的Embedding,进一步输入到self-attention layer。
- 搜索策略:基于EA (Evolutional Aligorithm)的搜索策略;
网络结构如下:
2. Lite Transformer with Long-Short Range Attention
Paper Link: https://arxiv.org/abs/2004.11886
GitHub: https://github.com/mit-han-lab/lite-transformer
Lite Transformer是韩松组研究提出的一种高效、面向移动端部署的Transformer架构,其核心是长短距离注意力结构(Long-Short Range Attention,LSRA)。LSRA将输入Embedding沿feature维度split成两部分,其中一部分通过GLU、一维卷积,用以提取局部context信息;而另一部分依靠self-attention,用以负责全局相关性信息编码。
Lite Transformer核心结构如下: