文章目录
1. 概览
《Distilling the Knowledge in a Neural Network》 是一篇关于知识蒸馏(Knowledge Distillation)技术的重要论文,由 Hinton 等人于2015年提出。这篇论文详细介绍了如何将一个大型的、复杂的机器学习模型(教师模型)的知识转移到一个较小的模型(学生模型)中,从而使小模型能够在保留大部分性能的同时拥有更高的效率。
2. 主要思想
知识蒸馏的核心思想是利用教师模型的软标签(soft labels)来训练学生模型。这里的软标签(soft labels)是指教师模型对输入数据预测的概率分布,传统的硬标签(hard labels)是指真实的分类标签。
2.1 软标签(Soft Labels)
教师模型对输入样本的预测输出是一个概率分布,而不是单一的类别标签。这种概率分布包含了教师模型对于各个类别的置信度,比硬标签提供了更多关于类间关系的信息。
2.2 温度参数(Temperature Parameter)
为了使概率分布更加平滑,引入了一个温度参数 T T T,它可以放大或缩小教师模型输出的 softmax 函数的值。
q i = e z i T ∑ e z i T q_i = \frac{e^{\frac{z_i}T}}{\sum e^{\frac{z_i}T}} qi=∑eTzi