北航&悉尼大学联合研发突破性高效AI技术：双重二值化方法重塑大型语言模型效率

论文题目： DB-LLM: Accurate Dual-Binarization for Efficient LLMs
论文链接： https://arxiv.org/abs/2402.11960

大型语言模型（LLMs）的双重二值化方法：新纪元的高效自然语言处理。随着大型语言模型（LLMs）在自然语言处理领域取得显著进展，它们在实际应用中却受到高昂的内存和计算消耗的限制。而量化作为提高LLMs计算效率的最有效手段之一，却在现有的超低位宽量化中遇到了严重的准确性下降问题。

为此，我们在本论文中提出了一种针对LLMs的新颖双重二值化方法——DB-LLM，在微观层面，我们综合考虑了两比特位宽的准确性优势和二值化的效率优势，引入了灵活的双重二值化（FDB）技术。通过将2位量化权重分割为两套独立的二进制集合，FDB在保证表示准确性的同时，引入了灵活性，利用二值化的高效位操作，并保持了超低位量化的高稀疏性。在宏观层面，我们发现了LLMs在量化后预测中存在的失真问题，即与样本模糊性相关的偏差。

我们提出了偏差感知蒸馏（DAD）方法，使模型能够根据不同样本进行不同的关注。**全面的实验表明，我们的DB-LLM不仅在超低位量化方面大幅超越当前最先进技术（例如，复杂度从9.64降至7.23），而且在相同位宽下，与最先进方法相比，计算消耗额外减少了20%**。