Adapter: Parameter-Efficient Transfer Learning for NLP
1.摘要
微调大模型在很多情况下,效率低下:每个任务都需要一个全新的模型。
所以,作者提出了使用适配器 adapter 模块前一。adapter 产生一个紧凑且可扩展的模型。他只为每个任务添加少量可训练参数,而且可以添加新的任务,无需重新检查之前的任务。原始网络的参数保持不变,从而实现了高度的参数共享。这里使用 BERT 应用了26 种不同的任务。Adapter 几乎获得了sota 表现
2.介绍
权衡准确率和可训练任务特定参数的数量,对于 adapter 微调和 finetuning。y 轴以全量微调的性能为基准,x 轴是微调参数量。曲线显示了 GLUE 基准九项任务的第 20、50 和 80 百分位数性能。基于 adapter 的调整在训练参数数量减少两个数量级的情况下取得了与 全量微调 类似的性能。
提出了 compact 和 extensible 下游任务模型的迁移学习策略
紧凑型(compact)模型是只需要为每个任务添加少量参数,就能解决多项任务的模型。
可扩展(extensible)模型可以通过增量训练来解决新任务,而不会遗忘以前的任务。
这两个最普遍的迁移学习策略是 feature-based 迁移和fine-tuning。进一步的,我们提出了一个可替代的迁移方法,基于 adapter module。他可以以少两个数量级的参数量,达到与微调相似的效果。
adapter 是一个被加在预训练网络层之间的一个新的 module。他区别于 feature-based 迁移和fine-tuning 以下面的方式:
考虑一个带有参数w的函数:ϕw(x)\phi_w(x)ϕw(x) .
- 基于特征的迁移将ϕw\phi_wϕw和χvχ_vχv组合成