Revisit Knowledge Distillation: a Teacher-free Framework

探讨了知识蒸馏(KD)与正则化的关系,发现KD可视为一种可学习的label smoothing正则化,即使teacher性能不佳也能指导student。实验表明,自我训练和结合正则化的方法能有效提升性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Observations

通过几组实验观察到

  • 反转Knowledge Distillation(KD)即利用student来guide teacher的话,teacher的性能依然可以得到提升
  • 用一个比student还差的teacher来guide student的话,student的性能依然可以得到提升

因此作者得到以下观点

  • KD只是一种可学习的label smoothing regularization
  • label smoothing regularization可以看做提供了一个虚拟teacher的KD
  • argue到KD的有效性可能不全是像KD论文说的那样student从teacher那获得了类别之间的相似关系,还因为soft target的正则作用,后者甚至更重要
    在这里插入图片描述
    Re-KD是反转的KD,即用student来guide teacher
    在这里插入图片描述
    De-KD代表用没有训练好的,比student性能还差的teacher去guide student
    在这里插入图片描述
    teacher的性能好坏对student的影响没有那么大
    在这里插入图片描述

KD和label smoothing regularization(LSR)的联系

在这里插入图片描述
通过推导公式可以发现

  • KD是一种可学习的LSR
  • LSR是一种特殊的KD,他相当于是一个得到随机猜的老师
  • 当KD的t很大时,KD提供的soft target和LSR提供的均匀分布是类似的
    这也解释了上面Re-KD和DE-KD可以帮助学习的原因,实际上是一种正则化

Teacher Free KD

  • self-training:由于差teacher可以guide student,我们完全可以训练一个student然后去guide student
    在这里插入图片描述
  • reg:联合KD和LSR,即把LSR当成teacher跟预测结果做KL loss
    在这里插入图片描述在这里插入图片描述

Experiment

Self-training可以和正常的KD取得类似的效果
在这里插入图片描述
在这里插入图片描述
Reg和self training性能差不多,但是他没有增加太多计算量,且比LSR好很多,可以尝试
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值