北航&悉尼大学联合研发突破性高效AI技术:双重二值化方法重塑大型语言模型效率

image.png

论文题目: DB-LLM: Accurate Dual-Binarization for Efficient LLMs
论文链接: https://arxiv.org/abs/2402.11960

大型语言模型(LLMs)的双重二值化方法:新纪元的高效自然语言处理。随着大型语言模型(LLMs)在自然语言处理领域取得显著进展,它们在实际应用中却受到高昂的内存和计算消耗的限制。而量化作为提高LLMs计算效率的最有效手段之一,却在现有的超低位宽量化中遇到了严重的准确性下降问题。

为此,我们在本论文中提出了一种针对LLMs的新颖双重二值化方法——DB-LLM,在微观层面,我们综合考虑了两比特位宽的准确性优势和二值化的效率优势,引入了灵活的双重二值化(FDB)技术。通过将2位量化权重分割为两套独立的二进制集合,FDB在保证表示准确性的同时,引入了灵活性,利用二值化的高效位操作,并保持了超低位量化的高稀疏性。在宏观层面,我们发现了LLMs在量化后预测中存在的失真问题,即与样本模糊性相关的偏差

我们提出了偏差感知蒸馏(DAD)方法,使模型能够根据不同样本进行不同的关注。**全面的实验表明,我们的DB-LLM不仅在超低位量化方面大幅超越当前最先进技术(例如,复杂度从9.64降至7.23),而且在相同位宽下,与最先进方法相比,计算消耗额外减少了20%**。

image.png
首次在2比特量化中相比全精度模型达成了帕累托改进(Pareto Improvement)

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值