英伟达玩转剪枝、蒸馏：把Llama 3.1 8B参数减半，性能同尺寸更强

最新推荐文章于 2025-06-05 21:32:39 发布

原创

最新推荐文章于 2025-06-05 21:32:39 发布 · 535 阅读

·

16

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#剪枝 #llama #算法

来源 | 机器之心

上个月，Meta 发布了 Llama 3.1 系列模型，其中包括 Meta 迄今为止最大的 405B 模型，以及两个较小的模型，参数量分别为 700 亿和 80 亿。

Llama 3.1 被认为是引领了开源新时代。然而，新一代的模型虽然性能强大，但部署时仍需要大量计算资源。

因此，业界出现了另一种趋势，即开发小型语言模型 (SLM)，这种模型在许多语言任务中表现足够出色，部署起来也非常便宜。

最近，英伟达研究表明，结构化权重剪枝与知识蒸馏相结合，可以从初始较大的模型中逐步获得较小的语言模型。

图灵奖得主、Meta 首席 AI 科学家 Yann LeCun 也点赞转帖了该研究。

经过剪枝和蒸馏，英伟达研究团队将 Llama 3.1 8B 提炼为 Llama-3.1-Minitron 4B 开源了出来。这是英伟达在 Llama 3.1 开源系列中的第一个作品。

Llama-3.1-Minitron 4B 的表现优于类似大小的最先进的开源模型，包括 Minitron 4B、Phi-2 2.7B、Gemma2 2.6B 和 Qwen2-1.5B。

这项研究的相关论文早在上个月已经放出了。

论文链接：https://www.arxiv.org/pdf/2407.14679
论文标题：Compact Language Models via Pruning and Knowledge Distillation

剪枝和蒸馏

剪枝使模型变得更小、更精简，可以通过删除层（深度剪枝）或删除神经元和注意力头以及嵌入通道（宽度剪枝）来实现。剪枝通常伴随着一定程度的再训练，以恢复准确率。

模型蒸馏是一种将知识从大型复杂模型（通常称为教师模型）迁移到较小、较简单的学生模型的技术。目标是创建一个更高效的模型，该模型保留了原始较大模型的大部分预测能力，同时运行速度更快且资源消耗更少。

蒸馏方式主要包括两种：SDG 微调与经典知识蒸馏，这两种蒸馏方式互补。本文主要关注经典知识蒸馏方法。

英伟达采用将

最低0.47元/天解锁文章

新学期VIP享超值加赠

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

lqfarmer 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。