文章目录
1. 任务特定的适配器(Task-Specific Adapters)
基本概念:
适配器是一种轻量级模块,插入到预训练模型的各层之间。
适配器模块通常包括一个降维层、非线性激活函数和一个升维层。
工作原理:
插入适配器模块:在预训练模型的每一层之间插入适配器模块。
冻结原模型参数:在微调过程中,预训练模型的参数保持不变。
更新适配器参数:只更新适配器模块的参数,使模型能够适应特定的下游任务。
优点:
适配器模块通常很小,增加的参数量较少。
适配器模块可以灵活地插入到不同层次,适应不同的任务需求。
举例:
在一个预训练的 BERT 模型中,每个 Transformer 层之间插入适配器模块。在微调过程中,只更新这些适配器模块的参数,而 BERT 模型的参数保持不变。
2. 权重近似学习(Learning Weight Approximation)
基本概念:
- 权重近似学习通过更新低秩矩阵来近似模型的权重。
- 这种方法通常使用低秩分解技术,如矩阵分解,将原始权重矩阵分解为两个低秩矩阵的乘积。
工作原理:
- 低秩分解:将预训练模型的权重矩阵分解为两个低秩矩阵的乘积。
- 冻结原模型参数:在微调过程中,预训练模型的参数保持不变。
- 更新低秩矩阵参数:只更新低秩矩阵的参数,使模型能够适应特定的下游任务。
优点:
- 低秩矩阵的参数