Introduction
- 作者提出 Taco-SVD,采用 ShortGPT 余弦相似度找到冗余层,但不直接剪枝而是对这些冗余层进行 SVD 低秩压缩来尽可能多地保存模型能力 (retain only 10% of the parameters in each redundant layer)。此外,Taco-SVD 利用了 task-aware SVD,不是单纯地保留 top-
k
k
k singular value directions,而是保存 task-critical singular value directions
Method
- Task-Aware Singular Value Decomposition. SVD 分解过程如下所示:
作者用如下的一阶泰勒展开来估计奇异值扰动对 loss 的影响:
可以推导出 (Appendix A.1)
换言之,奇异值重要性可以表示为下式,他兼顾了奇异值大小和梯度信息,可以基于该重要性选择要保留的特征向量
- Layer-wise Low-Rank Decomposition. 从最后一个冗余层开始逐层向前压缩,这样压缩前面层的时候梯度信息可以反映出后面已经被压缩的层带来的影响
Experiments
- FT. 采用 LoRA 在 Alpaca 数据集 (yahma/alpaca-cleaned) 上微调 1 epoch,并且只训经过 SVD 压缩的层
- Training-Free Compression.
- Training-based Compression.
- Performance at High Compression Ratio.
- Acceleration Effect.