论文解读:Frozen Feature Augmentation for Few-Shot Image Classification

文章总结

动机

通过各种图像增强手段和冻结特征(已经训练好的特征)结合起来训练轻量级模型。

最终得到的最佳设置顺序

亮度c^2FroFA (Bc^2),对比度FroFA (C)和后置cFroFA (Pc) 这三种连续的数据增强操作(具体这三种数据增强操作是干了什么,得去附录找)

这里三种FroFA介绍

(默认)FroFA

这里C_a=C_t=C

图像到特征的映射

数据增强变化

特征到图像的映射

通道FroFA (cFroFA)

a_x(3)对其通道采用随机增强

通道平方FroFA

在通道FroFA上再进行

t_{f \rightarrow x}(4),t_{x \leftarrow f}(6)也对每个通道(C_t=1),即f^*_c(2)进行操作

摘要

在在预训练的视觉模型输出(即所谓的“冻结特征”)之上训练线性分类器或轻量级模型,可以在许多下游小样本任务上获得令人印象深刻的性能。 目前,冻结特征在训练期间不会被修改。 另一方面,当直接在图像上训练网络时,数据增强是一种标准方法,可以在没有大量开销的情况下提高性能。 在本文中,我们对小样本图像分类进行了广泛的试点研究,探索在冻结特征空间中应用数据增强,称为“冻结特征增强(FroFA)”,总共涵盖了二十种增强。 我们的研究表明,采用看似简单的逐点 FroFA(例如亮度)可以在三个网络架构、三个大型预训练数据集和八个迁移数据集上一致地提高少样本学习的性能。

1. 介绍

视觉转换器(Vision transformer, vit)[19]在imagenet大小的[43,67]和更小的[21,38,41]数据集上取得了显著的性能。在这种设置中,数据增强,即一组预定义的随机输入转换,是一个关键因素。图像增强的例子是随机裁剪或像素修改,改变亮度或对比度。这些是更高级的策略的补充[13,46,73],如AutoAugment[12]。

一个更普遍的趋势是首先在大规模数据集上预训练视觉模型,然后在下游进行调整[6,8,49,71]。值得注意的是,即使在ViT输出(也称为冻结特征)之上训练一个简单的线性分类器或轻量级模型,也可以在许多不同的下游少镜头任务中产生显着的性能[16,25,52]。鉴于图像增强和冻结特征的成功,我们问:我们能否有效地将图像增强和冻结特征结合起来训练轻量级模型?

在本文中,我们重新审视了标准的图像增强技术,并将它们应用于数据受限的、少样本设置中的冻结特征。我们将这种类型的增强称为冻结特征增强(FroFA)。受到图像增强的启发,我们首先随机变换冻结的特征,然后在上面训练轻量级模型。在冻结特征上应用图像增强之前,我们唯一的修改是逐点缩放,使每个特征值位于[0,1]或[0,255]。

我们使用JFT-3B[71]、ImageNet21k[17]或WebLI[6]上预训练的ViTs研究了8个(少量样本)图像分类数据集。在从每个少镜头数据集中提取特征后,我们应用20种不同的冻结特征增强,并在此基础上训练轻量级的多头注意力池(MAP)[37]。我们的主要见解是:

1. 改变二维冻结特征形状和结构的几何增强总是导致ILSVRC-2012上的性能变差[57]。另一方面,简单的风格(逐点)增强,如亮度、对比度和隔色,可以在1、5和10 shot的设置上得到稳定的改善。

2. 通过采样每个冻结特征通道的独立值来增加每个通道的随机性效果出奇地好:在ILSVRC-2012 5-shot上,我们比MAP基线提高了1.6%的绝对值,比调优的线性baseline提高了0.8%的绝对值。

3. 虽然FroFA在ILSVRC-2012上提供了适度但显著的收益,但它在7个较小的少样本数据集上表现出色。特别是,FroFA比MAP基线的平均10次-shot精度高出2.6%,比线性探针基线高出5.2%。图1,左)。

4. 使用WebLI sigmoid型语言-图像预训练模型对相同的七个少样本数据集的结果[72]进一步强调了FroFA的传输能力。我们观察到,与MAP基线相比,1-shot的绝对增益为5.4%,25-shot的绝对增益为0.9%,而1-shot的绝对增益超过2%,5-shot至25-shot的绝对增益至少为3%。(cf。图1,右)。

图1所示。在不同的少样本设置下,七个少样本测试集(CIFAR100 [1], SUN397[69],…)的平均前1精度增益。我们使用JFT-3B预训练[71]或WebLI s型语言图像预训练(SigLIP)[6,72]对L/16 ViT[19]中的冻结特征进行训练。我们提出的冻结特征增强(FroFA)方法在没有FroFA的情况下,与权重衰减正则化多头注意力池[37](MAPwd)和l2正则化线性探测基线相比,具有一致的增益。

2. 相关的工作

少样本迁移学习

元调优损失函数和数据增强是针对少样本目标检测的重要技术。在少样本目标检测任务中,由于样本数量有限,模型往往很难对新类别的目标进行准确的检测。为了解决这一问题,研究者提出了使用元调优的方法来调整损失函数和增强数据。 首先,元调优损失函数是指通过优化损失函数的参数,使得模型在少样本情况下能够更好地泛化到新类别的目标。通常采用的方法是设计一个元损失函数,这个函数能够根据当前任务的特性来自动调整模型的损失函数。通过元损失函数的调整,模型可以更好地适应少样本目标检测任务,提高检测的准确性和泛化能力。 其次,数据增强是指在训练过程中对样本进行一些变换,来生成更多的训练样本。对于少样本目标检测任务,数据增强能够帮助模型学习到更多不同类别目标的特征,提高模型的泛化能力。通过元调优的方法,可以设计一些特定的数据增强策略,使得模型在少样本情况下能够更好地学习到不同类别目标的特征,从而提高检测的准确性和泛化能力。 总之,元调优损失函数和数据增强是针对少样本目标检测问题的重要技术,能够帮助模型更好地适应少样本情况,提高检测的准确性和泛化能力。通过这些技术的应用,可以使得少样本目标检测模型在实际应用中取得更好的效果。
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

十有久诚

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值