大模型调优技术：Parameter-efficient transfer learning

最新推荐文章于 2024-11-10 19:24:40 发布

Iris_wondering

最新推荐文章于 2024-11-10 19:24:40 发布

阅读量1.2k

点赞数 16

CC 4.0 BY-SA版权

文章标签： llama 人工智能语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Shirelle_/article/details/139790181

文章目录

1. 任务特定的适配器（Task-Specific Adapters）
2. 权重近似学习（Learning Weight Approximation）
3. 提示微调（Prompt Tuning）
- - 基本概念：
  - 举例说明：

1. 任务特定的适配器（Task-Specific Adapters）

基本概念：

适配器是一种轻量级模块，插入到预训练模型的各层之间。
适配器模块通常包括一个降维层、非线性激活函数和一个升维层。

工作原理：

插入适配器模块：在预训练模型的每一层之间插入适配器模块。
冻结原模型参数：在微调过程中，预训练模型的参数保持不变。
更新适配器参数：只更新适配器模块的参数，使模型能够适应特定的下游任务。

优点：

适配器模块通常很小，增加的参数量较少。
适配器模块可以灵活地插入到不同层次，适应不同的任务需求。

举例：

在一个预训练的 BERT 模型中，每个 Transformer 层之间插入适配器模块。在微调过程中，只更新这些适配器模块的参数，而 BERT 模型的参数保持不变。

2. 权重近似学习（Learning Weight Approximation）

基本概念：

权重近似学习通过更新低秩矩阵来近似模型的权重。
这种方法通常使用低秩分解技术，如矩阵分解，将原始权重矩阵分解为两个低秩矩阵的乘积。

工作原理：

低秩分解：将预训练模型的权重矩阵分解为两个低秩矩阵的乘积。
冻结原模型参数：在微调过程中，预训练模型的参数保持不变。
更新低秩矩阵参数：只更新低秩矩阵的参数，使模型能够适应特定的下游任务。

优点：

低秩矩阵的参数

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。