文章总结
动机
通过各种图像增强手段和冻结特征(已经训练好的特征)结合起来训练轻量级模型。
最终得到的最佳设置顺序
亮度,对比度FroFA (C)和后置cFroFA (Pc) 这三种连续的数据增强操作(具体这三种数据增强操作是干了什么,得去附录找)
这里三种FroFA介绍
(默认)FroFA
这里,
图像到特征的映射
数据增强变化
特征到图像的映射
通道FroFA (cFroFA)
对其通道采用随机增强
通道平方FroFA
在通道FroFA上再进行
也对每个通道(
),即
进行操作
摘要
在在预训练的视觉模型输出(即所谓的“冻结特征”)之上训练线性分类器或轻量级模型,可以在许多下游小样本任务上获得令人印象深刻的性能。 目前,冻结特征在训练期间不会被修改。 另一方面,当直接在图像上训练网络时,数据增强是一种标准方法,可以在没有大量开销的情况下提高性能。 在本文中,我们对小样本图像分类进行了广泛的试点研究,探索在冻结特征空间中应用数据增强,称为“冻结特征增强(FroFA)”,总共涵盖了二十种增强。 我们的研究表明,采用看似简单的逐点 FroFA(例如亮度)可以在三个网络架构、三个大型预训练数据集和八个迁移数据集上一致地提高少样本学习的性能。
1. 介绍
视觉转换器(Vision transformer, vit)[19]在imagenet大小的[43,67]和更小的[21,38,41]数据集上取得了显著的性能。在这种设置中,数据增强,即一组预定义的随机输入转换,是一个关键因素。图像增强的例子是随机裁剪或像素修改,改变亮度或对比度。这些是更高级的策略的补充[13,46,73],如AutoAugment[12]。
一个更普遍的趋势是首先在大规模数据集上预训练视觉模型,然后在下游进行调整[6,8,49,71]。值得注意的是,即使在ViT输出(也称为冻结特征)之上训练一个简单的线性分类器或轻量级模型,也可以在许多不同的下游少镜头任务中产生显着的性能[16,25,52]。鉴于图像增强和冻结特征的成功,我们问:我们能否有效地将图像增强和冻结特征结合起来训练轻量级模型?
在本文中,我们重新审视了标准的图像增强技术,并将它们应用于数据受限的、少样本设置中的冻结特征。我们将这种类型的增强称为冻结特征增强(FroFA)。受到图像增强的启发,我们首先随机变换冻结的特征,然后在上面训练轻量级模型。在冻结特征上应用图像增强之前,我们唯一的修改是逐点缩放,使每个特征值位于[0,1]或[0,255]。
我们使用JFT-3B[71]、ImageNet21k[17]或WebLI[6]上预训练的ViTs研究了8个(少量样本)图像分类数据集。在从每个少镜头数据集中提取特征后,我们应用20种不同的冻结特征增强,并在此基础上训练轻量级的多头注意力池(MAP)[37]。我们的主要见解是:
1. 改变二维冻结特征形状和结构的几何增强总是导致ILSVRC-2012上的性能变差[57]。另一方面,简单的风格(逐点)增强,如亮度、对比度和隔色,可以在1、5和10 shot的设置上得到稳定的改善。
2. 通过采样每个冻结特征通道的独立值来增加每个通道的随机性效果出奇地好:在ILSVRC-2012 5-shot上,我们比MAP基线提高了1.6%的绝对值,比调优的线性baseline提高了0.8%的绝对值。
3. 虽然FroFA在ILSVRC-2012上提供了适度但显著的收益,但它在7个较小的少样本数据集上表现出色。特别是,FroFA比MAP基线的平均10次-shot精度高出2.6%,比线性探针基线高出5.2%。图1,左)。
4. 使用WebLI sigmoid型语言-图像预训练模型对相同的七个少样本数据集的结果[72]进一步强调了FroFA的传输能力。我们观察到,与MAP基线相比,1-shot的绝对增益为5.4%,25-shot的绝对增益为0.9%,而1-shot的绝对增益超过2%,5-shot至25-shot的绝对增益至少为3%。(cf。图1,右)。
图1所示。在不同的少样本设置下,七个少样本测试集(CIFAR100 [1], SUN397[69],…)的平均前1精度增益。我们使用JFT-3B预训练[71]或WebLI s型语言图像预训练(SigLIP)[6,72]对L/16 ViT[19]中的冻结特征进行训练。我们提出的冻结特征增强(FroFA)方法在没有FroFA的情况下,与权重衰减正则化多头注意力池[37](MAPwd)和l2正则化线性探测基线相比,具有一致的增益。