知识蒸馏: Distilling the Knowledge in a Neural Network(上)

现在各种大模型使用的知识蒸馏技术的起点论文:真正AI圈大佬Hinton的论文,做了一个非常底层的改动,洋洋洒洒写了一整篇论文。

我配合B站上的一个视频,将整个论文看了几遍,觉得应该差不多看懂了大概吧,做个记录。

基本逻辑(Abstract)

整片论文主要讨论和解决一个问题,在模型越来越大,数据集越来越多的情况下,即使算力已经翻了N倍,训练和部署大模型仍然是一个非常耗时的工作。我个人觉得主要是提出了两个方向的解决方案:

  • 知识蒸馏,distill knowledge
  • 通用模型 + 专用模型并行训练的方式。

文章的摘要一开头就说的这个事情:
A very simple way to improve the performance of almost any machine learning algorithm is to train many different models on the same data and then to average their predictions [3]. Unfortunately, making predictions using a whole ensemble of models is cumbersome and may be too computationally expensive to allow deployment to a large number of users, especially if the individual models are large neural nets.

这一段说的是说一个普遍的提高机器

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

新兴AI民工

码字不易,各位看客随意

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值