文章目录
论文链接:https://arxiv.org/abs/2107.11170.
前言
大型CNN和轻量型CNN在特征多样性上的差异很少被研究。具有低特征多样性的数据点可能无法提供足够数量的唯一描述符来进行有效预测;我们称之为随机预测。随机预测会对优化过程产生负面影响,并损害最终性能。本文建议通过重塑标准交叉熵来解决随机预测带来的问题,使其偏向于具有有限数量的独特描述特征的数据点。我们新颖的偏差损失将训练集中在一组有价值的数据点上,并防止大量学习特性差的样本误导优化过程。此外,为了展示多样性的重要性,我们提出了一系列SkipNet模型,它们的体系结构用于增加最后几层中唯一描述符的数量。在基准数据集上进行的实验证明了该损失函数优于交叉熵损失。此外,在ImageNet ILSVRC-2012分类数据集上,我们的Skipnet-M可以以相似的计算成本实现比MobileNetV3 Large高1%的分类精度。
乍一看上去,就是提出了一个loss,这个loss对关注某些难例。为啥感觉和Focal loss这么像???
一、Introduction
巴拉巴拉一堆废话。。。
在轻量化CNN中,由于参数数量少,提取的特征量会更小,可能不足以描述待分类对象。对于某些数据点,这些特征可能缺少区分不同类的对象所需的唯一描述符。结果,在缺乏足够数量的唯一描述符的情况下,模型不能产生有效的预测。我们称之为随机预测,对优化过程没有任何有用的学习信号。
为了解决这个问题,我们设计了偏差损失,这是一种新的损失,它根据每个数据点提供的特征多样性按比例加权每个数据点的贡献。作为多样性的一个简单度量,我们采用信号的方差,它描述了要素图的值与平均值之间的距离。基于方差,我们设计了一个非线性函数,其值作为交叉熵的权重。这样,我们让具有不同特征的数据点对优化过程有更高的影响,并减少随机预测造成的误导。
(为每个样本来调整权重,再次印证最初的想法,和Focal loss很像)
(我很奇怪为啥特征多样性的度量要用方差,有啥理论依据和实验说明吗?然而并没有)
贡献有三个方面:
(1)我们设计了一个损失函数,以减少紧凑CNNs中随机预测对优化的误导;(2)我们提出了一种有效的神经体系结构来增加具有大量独特描述特征的数据点的数量;
(3)在资源受限的设置下,我们的模型在ImageNet分类任务上实现了最先进的性能
二、Objective Functions
2.1.Bias Loss
所有的实验中,作为多样性的一个简单度量,我们采用信号方差,它可以指示特征图的值离平均值有多远。这种选择背后的直觉是方差越高,获得大量独特特征的机会就越高。对于方差计算,使用最后一个卷积层的特征映射(在汇集和丢弃操作之前)。这有助于避免结果失真,并更好地估计数据点提供的学习信号。
(用最后一层输出来计算方差,emmm。为啥不用模长呢?好歹这个别人还研究过,有过依据。你这里直接来一个直觉,就很服气。)
最后一层输出拉成一维然后计算方差,为了方便优化再scale到【0,1】。
cross-entropy loss ,Focal loss,bias loss。三者对比bias loss和focal loss不要太像好不好。
我们注意到偏差函数的两个性质:(I)当方差较低时,函数值达到最小值(1-β),并且这些数据点的影响是向下加权的。随着方差的增加,z(v)的值以及数据点的影响呈指数级增加。(ii)参数α平滑地调整高方差示例的影响率。随着α的增大,高方差数据点的影响也增大。
所提出的函数有助于将学习集中在能够提供大量独特特征的例子上,并减少随机预测在优化过程中可能造成的误导。
(所以Z()这个公式是想给低方差的样本小的权重,高方差的样本大的权重。α的增加,底方差和高方差的样本影响都会增大啊。
bias loss的目的是为了减小随机预测,而一般产生随机预测的基本都是难例。
按正常的逻辑应该是加强难例的权重,加强对难例的挖掘和学习。
按照论文的逻辑,被加强的高方差样本应该就是难例。向量的方差大小和向量的l2-范数大小时正相关的,可以得出l2-范数较大的特征是难例。
L2-constrained Softmax Loss for Discriminative Face Verification,MagFace,One-shot Face 等这些文章都讨论过,质量高的图像L2-范数大,质量低的图像L2-范数小。显然这是有冲突的)
三、SkipNet Mobile Architectures
四、Experiments
总结
从结果来看似乎不错吧。Flops增加了不少。给我的感觉是这个loss,形式上和focal loss差不多。但是操作与focal loss相反。focal loss加强难例的学习,这个是加强易分样本的学习。个人感觉对于鲁棒性要求高的场景并不适用。