微调策略：增加模型容量提升适应性

PDF文件

2.11MB | 更新于2025-01-16 | 169 浏览量 | 举报收藏

立即下载

"本文主要探讨了通过增加模型容量进行微调的方法，以提高神经网络，尤其是深度卷积神经网络（CNN）在目标任务上的自适应能力。研究指出，经典微调策略是将预训练的CNN在网络的最后一层进行调整，以适应新的任务。然而，作者提出了一种新的方法，即通过在网络中添加更多层或扩大现有层的容量来‘生长’CNN，以实现更自然的模型自适应。他们强调了在增加新单元时，适当规范化的必要性，以保持与现有单元一致的学习速度。实验结果表明，这种方法在多个基准数据集上产生了最先进的结果，证明了其有效性和优越性。" 在计算机视觉领域，深度学习，特别是深度卷积神经网络（CNN），已经取得了显著的成就，尤其是在大型注释数据集如ImageNet上预训练的模型可以有效地迁移到其他任务。然而，当面临新的类别或任务时，需要大量的标注数据重新训练模型通常是不切实际的。因此，微调成为了一个关键的迁移学习策略，即在预训练模型的基础上，针对新任务替换和微调最后的分类层。传统的微调方法通常限制了模型容量的改变，但研究表明，增加模型容量可以进一步提升模型的自适应能力。通过在网络中添加额外的层或扩大现有层的宽度（增加通道数），可以“生长”CNN，使其更好地适应目标数据集。这种生长策略与儿童的大脑发展相类比，强调了结构的动态变化对学习的重要性。然而，新增加的单元必须被正确地规范化，以确保与原有单元的学习速率同步，避免破坏原有的学习状态。文章中提到的实验结果显示，这种增加模型容量的微调方法在几个标准数据集上都超越了传统的微调方法，显示出在视觉识别任务中的优势。这意味着，对于那些没有大量标注数据的新任务，通过适当扩展预训练模型的结构，可以更有效地利用预训练知识，达到更好的性能。这篇工作对深度学习社区有着重要的启示，它鼓励研究者探索模型结构的动态调整，而非仅仅局限于微调预训练模型的权重。通过这种方式，可以更充分地利用预训练模型的泛化能力，同时提升在特定任务上的性能，这对于资源有限的环境或新的细分领域尤为重要。

2473

不

s=1

不

s=1

新型任务

图像

新任务地

面实况

增强

预训

练

分类器

宽度增广表示模块F。

和下层L

K−1之间的连接权重

(a)

经典微调

仍然存在，

即

， h

−

我们引入额外的

新任务

图像

新任务

之间的横向连接权重

其被随机初始化，

即

，H

和L

−

，

(b)

深度增强网络（c）宽度增强网络

最后，级联激活

的

大小

为

（

DA-

CNN）

（

WA-

CNN）

S来自L

层

被送入分类器模块。

新型任务

图像

新任务地

面实况

新型任务

图像

新任务

地

面实况

4.3. 以同样的速度学习

（d）联合深度和宽度增强网络（DWA-CNN）

图2：经典微调（a）和具有增强模型容量（b-e）的发

展网络

（WA-CNN），如图2c所示。我们将在第4节中解释这

两种类型的网络配置。它们的组合-一个联合深度和宽

度增强网络（DWA-CNN），如图2d所示和一个递归

宽度增强网络（WWA-CNN），如图2 e所示-也将在第

5节中讨论。

发展网络

对于目标任务，假设具有固定容量的

表示模块

由K层

组成

，

. . .

，

K具有隐藏激活h

∈ R

，

其中

是在层

处的单元的数量。设

为层

和层

k−

之

间的权重。也就是说，

。

−

，

其中

（

）

是非线性函数，例如

ReLU

。不管是不是

简单地说，

已经包括了一个常数

，

最后一个元素，W

包括偏置项。

理想情况下，我们希望新老单位相互合作，以提高

目标业绩。然而，对于宽度增强的网络，单元在微调

期间以不同的速度开始学习：虽然层L

处的原始单元

已经在源域上很好地学习并且仅需要小的修改以进行

适应，但是层L

处的新单元集仅通过随机初始化来建

立。因此，他们有不同的学习行为，在这个意义上，

他们的激活通常有不同的规模。简单地连接这些激活

会限制相应的单元，导致性能下降，甚至导致网络崩

溃，因为较大的激活会支配较小的激活[23]。虽然权

重可以作为微调过程相应地调整，但是它们需要非常

仔细的参数初始化和调整，这是依赖于数据集的，因

此不是鲁棒的。这是部分原因，以前的工作表明，网

络扩展是劣于标准微调[22]。

为了协调新单元和现有单元的学习速度，我们在宽

度增强网络中引入了一种额外的归一化和自适应缩放

方案，这是受到最近关于组合来自不同层的多尺度预

训练CNN特征的工作的启发[23]。

更准确地说，在F

的

权重初始化之后，我们首先

4.1.

深度增强网络

一个简单的方法来增加代表性的CA-

不

分别

对激活h

应用

和

pacity是构造大小为S的新顶层L，

，

（一

）

一

}

在

的顶部

，导致深度增大的代表

¨ ¨

如图2b所示的表示模块F。我们将L

视为一个适应层，

它允许预先存在的单元的新组合，从而避免对预先训

练的层进行戏剧性的修改以适应新任务。

新的激活h

。

在层

中

的

变成

被馈送到分类器模块C

中

的表示，其中W

表示层L

和

之间的权重。

通过使这些激活正常化，它们的尺度变得均匀。简单

地将规范标准化为1会减慢学习速度，并且很难训练网

络，因为特征变得非常小。与[23]一致，我们将它们

归一化为更大的值（

例如

，10或20），这鼓励年龄的

网络学习很好。然后，我们为每个通道引入缩放参数γ

来缩放归一化值：

k k k

4.2.

宽度增强网络

另一种方法是通过添加

，

。

（二）

我们发现，对于深度增强网络，

}

一些现有的层，同时保持深度

附加的标准化和缩放阶段并不重要，

如图2c所示的网络固定。不失

一般来说，我们将所有单元添加到顶层L

。现在

它仍然是有益的。此外，本阶段仅介绍

可忽略的额外参数，其数量等于

新建顶部制图表达图层

由两个区块组成：

频道总数在微调期间，缩放

原始L

和单位为

{

}

的附加L

，导致

因子

通过反向传播进行微调，如[23]中所示。

新型任务

图像

新任务地

面实况

地面实况

−

剩余10页未读，继续阅读

cpongm

粉丝: 6

微调策略：增加模型容量提升适应性

基于RNN汉语语言模型自适应算法研究

大语言模型面试题，校招面试必备，给自己面试增加成功的概率

BERT模型微调技巧：优化器设置与排程调整

YOLOv8图像分类模型微调指南：针对特定数据集提升精度，让你的模型更贴合需求

【PyTorch进阶微调】：利用损失函数进行高效的模型微调

【模型微调】：精细化调整模型以适应Ace Speedway赛道特性的终极指南

SpotTune：自适应微调提升迁移学习性能

Alpha MAML：自适应模型无关元学习

【NLP模型微调实战】：独家揭秘如何使用Hugging Face优化特定任务模型训练

模型微调注意事项：YOLOv8训练日志中的经验分享

最新资源