现在各种大模型使用的知识蒸馏技术的起点论文:真正AI圈大佬Hinton的论文,做了一个非常底层的改动,洋洋洒洒写了一整篇论文。
我配合B站上的一个视频,将整个论文看了几遍,觉得应该差不多看懂了大概吧,做个记录。
基本逻辑(Abstract)
整片论文主要讨论和解决一个问题,在模型越来越大,数据集越来越多的情况下,即使算力已经翻了N倍,训练和部署大模型仍然是一个非常耗时的工作。我个人觉得主要是提出了两个方向的解决方案:
- 知识蒸馏,distill knowledge
- 通用模型 + 专用模型并行训练的方式。
文章的摘要一开头就说的这个事情:
A very simple way to improve the performance of almost any machine learning algorithm is to train many different models on the same data and then to average their predictions [3]. Unfortunately, making predictions using a whole ensemble of models is cumbersome and may be too computationally expensive to allow deployment to a large number of users, especially if the individual models are large neural nets.
这一段说的是说一个普遍的提高机器