从入门到精通：全面理解大模型中的 LoRA 技术

@程序员小袁

已于 2025-07-21 22:19:20 修改

阅读量639

点赞数 23

CC 4.0 BY-SA版权

分类专栏：开源项目 AI 大模型文章标签： LoRA 大模型

于 2025-06-18 11:26:53 首次发布

64 篇文章

订阅专栏

61 篇文章

订阅专栏

60 篇文章

订阅专栏

近年来，大规模预训练模型在各类任务中展现出惊人能力，但其微调成本也随之飙升。LoRA（Low-Rank Adaptation）作为一种参数高效微调技术，正成为适配大模型的核心手段。本文将从原理、优势、实现、应用、对比、挑战等角度，全方位解析 LoRA，助你从入门走向精通。

LoRA 是微软研究院于 2021 年提出的轻量微调技术，其核心思想是：在冻结原始模型参数的基础上，仅注入少量可训练的低秩矩阵，以模拟参数更新。

研究发现，大模型适应新任务所需的参数更新通常位于低维子空间。LoRA 通过低秩分解（如将权重增量拆解为两个小矩阵的乘积）捕捉这个低维变化，从而在显著减少可训练参数的前提下，依然保持强大的性能表现。

LoRA 的数学原理如下：

原始权重矩阵： $W_0 \in \mathbb{R}^{d \times k}$
不直接微调 $W_0$ ，而是引入可训练的增量： $\Delta W = B A$
- 其中 $\in \mathbb{R}^{d \times r}$ ， $\in \mathbb{R}^{r \times k}$ ，并且 $\ll \min(d,k)$
前向传播过程：
$W_0 x + \Delta W x = W_0 x + B A x$
为了稳定训练，使用缩放因子：
$\Delta W \leftarrow \frac{\alpha}{r} B A$

优势类别	描述
参数量减少	可训练参数仅为全模型的千分之一甚至更少（如 GPT-3 微调仅需 1800 万参数）
显存占用低	显存需求减少至原来的约三分之一，显著减轻硬件压力
推理无延迟	推理时可将 LoRA 权重合并回原模型，不增加额外层
适配任务灵活	支持为不同任务加载不同 LoRA 模块，实现快速任务切换与模块复用
训练更快	训练参数少，反向传播快，适合分布式加速场景

graph TD
  A[加载预训练模型] --> B[冻结原始权重参数]
  B --> C[插入 LoRA 模块（注意力/MLP 层）]
  C --> D[训练 LoRA 低秩矩阵 B, A]
  D --> E[评估性能与保存权重模块]

应用领域	描述
NLP	适配文本分类、问答、对话等任务，适用于 GPT、LLaMA 等
CV	对 ViT、Stable Diffusion 等模型插入 LoRA，用于图像生成、分割等
多模态	CLIP、LLaVA 等多模态模型中同时在视觉/语言模块中插入 LoRA
语音任务	用于 ASR、TTS 等语音建模任务，实现任务定制化

方法	可训练参数	推理延迟	特点
全量微调	100%	无	性能最优，但资源消耗高
LoRA	<1%	无	几乎不增加推理开销，效果好
Adapter	≈10%	有	插入中间瓶颈层，适合分类任务
Prefix Tuning	≈0.1%	无	只修改输入提示，不改变模型结构
BitFit	≈0.1%	无	仅调偏置项，参数更少但效果不稳
QLoRA	LoRA + 4bit	无	极限显存压缩，可在消费级显卡上训练超大模型

挑战	描述
秩的选择 r	不同任务所需的最优秩不同，需人工调参或自动搜索
插入层选择	LoRA 并非插入越多越好，可能带来干扰或冗余
多任务冲突	多个任务共享底座模型时，LoRA 模块可能相互干扰
与量化兼容性	合理结合 INT8/INT4、QAT 等需更多研究与优化
泛化能力研究	理论尚不明确：LoRA 的表达能力与泛化边界尚未完全揭示