大模型调优技术:Parameter-efficient transfer learning

1. 任务特定的适配器(Task-Specific Adapters)

基本概念:

适配器是一种轻量级模块,插入到预训练模型的各层之间。
适配器模块通常包括一个降维层、非线性激活函数和一个升维层。

工作原理:

插入适配器模块:在预训练模型的每一层之间插入适配器模块。
冻结原模型参数:在微调过程中,预训练模型的参数保持不变。
更新适配器参数:只更新适配器模块的参数,使模型能够适应特定的下游任务。

优点:

适配器模块通常很小,增加的参数量较少。
适配器模块可以灵活地插入到不同层次,适应不同的任务需求。

举例:

在一个预训练的 BERT 模型中,每个 Transformer 层之间插入适配器模块。在微调过程中,只更新这些适配器模块的参数,而 BERT 模型的参数保持不变。

2. 权重近似学习(Learning Weight Approximation)

基本概念:

  • 权重近似学习通过更新低秩矩阵来近似模型的权重。
  • 这种方法通常使用低秩分解技术,如矩阵分解,将原始权重矩阵分解为两个低秩矩阵的乘积。

工作原理:

  • 低秩分解:将预训练模型的权重矩阵分解为两个低秩矩阵的乘积。
  • 冻结原模型参数:在微调过程中,预训练模型的参数保持不变。
  • 更新低秩矩阵参数:只更新低秩矩阵的参数,使模型能够适应特定的下游任务。

优点:

  • 低秩矩阵的参数
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值