参考Seesaw Loss:一种面向长尾目标检测的平衡损失函数 - 王佳琦的文章 - 知乎
https://zhuanlan.zhihu.com/p/339126633
上面文章讲过的这里就不赘述了,主要解释一些东西。
Motivation中,“来自头部类别的样本会对尾部类别施加过量的负样本梯度,淹没了来自尾部类别自身的正样本梯度”
要理解这句话,得先理解loss反向传播的过程
为啥头部类别还能对尾部类别施加梯度呢?
以全连接为例
设1为头部类别。现在就是头部类别的预测情况,这个样本的gt为头部类别,Loss为交叉熵损失,所以为-log(0.7)
同时交叉熵损失函数对预测结果求偏导:
ddxloss=1/x\frac{\mathrm{d} }{\mathrm{d} x}loss=1/xdxdlos