[Arxiv 2025] Rethinking Layer Removal: Preserving Critical Components with Task-Aware SVD

Introduction

  • 作者提出 Taco-SVD,采用 ShortGPT 余弦相似度找到冗余层,但不直接剪枝而是对这些冗余层进行 SVD 低秩压缩来尽可能多地保存模型能力 (retain only 10% of the parameters in each redundant layer)。此外,Taco-SVD 利用了 task-aware SVD,不是单纯地保留 top- k k k singular value directions,而是保存 task-critical singular value directions
    在这里插入图片描述

Method

在这里插入图片描述

  • Task-Aware Singular Value Decomposition. SVD 分解过程如下所示:
    在这里插入图片描述在这里插入图片描述作者用如下的一阶泰勒展开来估计奇异值扰动对 loss 的影响:
    在这里插入图片描述可以推导出 (Appendix A.1)
    在这里插入图片描述在这里插入图片描述换言之,奇异值重要性可以表示为下式,他兼顾了奇异值大小和梯度信息,可以基于该重要性选择要保留的特征向量
    在这里插入图片描述
  • Layer-wise Low-Rank Decomposition. 从最后一个冗余层开始逐层向前压缩,这样压缩前面层的时候梯度信息可以反映出后面已经被压缩的层带来的影响
    在这里插入图片描述

Experiments

  • FT. 采用 LoRA 在 Alpaca 数据集 (yahma/alpaca-cleaned) 上微调 1 epoch,并且只训经过 SVD 压缩的层

  • Training-Free Compression.
    在这里插入图片描述
  • Training-based Compression.
    在这里插入图片描述
  • Performance at High Compression Ratio.
    在这里插入图片描述
  • Acceleration Effect.
    在这里插入图片描述

References

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值