大模型增量微调的各种方法

最新推荐文章于 2025-06-30 10:15:00 发布

MR.AZURE

最新推荐文章于 2025-06-30 10:15:00 发布

阅读量2.3k

点赞数 23

CC 4.0 BY-SA版权

分类专栏：学海无涯文章标签：人工智能 python 深度学习 gpt-3 chatgpt transformer 神经网络

本文链接：https://blog.csdn.net/suliuzhen/article/details/137999760

本文概述了大模型增量微调的发展，主要介绍了添加式（如适配器和提示微调）、指定式（如仅优化特定层）和重参数化（如LoRA）三种方法。这些方法通过高效地调整部分参数，实现了在保持模型结构不变的情况下提升性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

大模型增量微调发展至今，已经涌现出一系列方法，尽管这些方法可能有不同的模型结构和训练策略，但它们都秉承参数高效的基本原则。根据具体的训练策略，可以将增量微调分为三大类：添加式方法、指定式方法和重参数化方法。

添加式方法会在模型中引入本身不存在的参数，并且只训练额外引入的这部分参数而保持其他参数不变；指定式方法则是指定模型中一部分特定的参数可训练，而保持其他参数不变；重参数化方法稍有不同，它是将模型的适配过程（或者是参数的变化）重新转化为一个参数高效的形式，如低维或者低秩的形式。

一、添加式方法

添加式增量微调方法是在大模型中添加额外的参数，但这些参数的位置和结构可能会有所不同。

1、适配器微调

适配器微调（adapter-tuning）是增量微调的开创性工作。这种方法的核心思想是在大模型中插入轻量级的神经网络模块，即适配器。在下游适配的过程中，仅对这些适配器的参数进行优化，其他参数保持不变。具体而言，一个适配器包括一个下投影线性层、一个非线性激活层和一个上投影线性层。适配器微调首次证明了仅调整0.5%~8%的参数即可达到与全参数微调相当的效果。在此基础上，适配器微调又衍生出了一系列的变体，如将适配器的参数复杂度从O(kr)降低到O(d+r)的Compacter方法，以及将适配器移出模型本身在模型之外进行单独优化的梯侧调整（LadderSideTuning，LST）方法等。

2、基于“提示”的方法

基于提示的重要开创性方法是前缀微调[6]（prefix-tuning），它将可训练的“软提示”（也叫前缀）插入到模型的输入和隐状态表示层之前，并且在适配过程中只训练这些软提示。一个更加简化的方法是提示微调（prompt