论文题目: DB-LLM: Accurate Dual-Binarization for Efficient LLMs
论文链接: https://arxiv.org/abs/2402.11960
大型语言模型(LLMs)的双重二值化方法:新纪元的高效自然语言处理。随着大型语言模型(LLMs)在自然语言处理领域取得显著进展,它们在实际应用中却受到高昂的内存和计算消耗的限制。而量化作为提高LLMs计算效率的最有效手段之一,却在现有的超低位宽量化中遇到了严重的准确性下降问题。
为此,我们在本论文中提出了一种针对LLMs的新颖双重二值化方法——DB-LLM,在微观层面,我们综合考虑了两比特位宽的准确性优势和二值化的效率优势,引入了灵活的双重二值化(FDB)技术。通过将2位量化权重分割为两套独立的二进制集合,FDB在保证表示准确性的同时,引入了灵活性,利用二值化的高效位操作,并保持了超低位量化的高稀疏性。在宏观层面,我们发现了LLMs在量化后预测中存在的失真问题,即与样本模糊性相关的偏差。
我们提出了偏差感知蒸馏(DAD)方法,使模型能够根据不同样本进行不同的关注。**全面的实验表明,我们的DB-LLM不仅在超低位量化方面大幅超越当前最先进技术(例如,复杂度从9.64降至7.23),而且在相同位宽下,与最先进方法相比,计算消耗额外减少了20%**。
