BitsAndBytes 是 quantization（量化）任务的首选工具

最新推荐文章于 2025-08-21 22:15:00 发布

大模型与Agent智能体

最新推荐文章于 2025-08-21 22:15:00 发布

阅读量234

点赞数 8

CC 4.0 BY-SA版权

分类专栏： A2A MCP DeepSeek大模型智能体实战文章标签： LoRA 大模型微调 PEFT 强化学习

热烈祝贺Gavin大咖2024年北京航空航天大学两本新书《Transformer&ChatGPT解密：原理、源码及案例》、《Transformer& Rasa 解密: 原理、源码及案例》出版发行

本文链接：https://blog.csdn.net/duan_zhihua/article/details/150388292

A2A MCP DeepSeek大模型智能体实战专栏收录该内容

103 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

混合精度确实是个很有用的技巧，能让模型运行得更快，不过它并不会减小模型的大小。你可能会问，那什么能减小模型大小呢？当然是位数更少的模型啦！

BitsAndBytes

BitsAndBytes 是 quantization（量化）任务的首选工具包。其文档中提到：
“bitsandbytes 通过 PyTorch 的 k 位量化技术，让大型语言模型的使用变得更便捷。bitsandbytes 提供三大核心功能，可显著降低推理和训练过程中的内存消耗：

8 位优化器采用块级量化技术，以极低的内存成本保持 32 位精度的性能。
LLM.Int() 即 8 位量化技术，能在仅使用一半内存的情况下实现大型语言模型推理，且不会导致任何性能损失。该方法基于向量级量化，将大多数特征量化为 8 位，同时对异常值单独采用 16 位矩阵乘法处理。
QLoRA 即 4 位量化技术，通过多种节省内存的技术实现大型语言模型训练，且不会影响性能。该方法将模型量化至 4 位，并插入一小组可训练的低秩适配（LoRA）权重以支持训练。”

它与 Hugging Face 生态系统完全集成，除了通过 pip 安装外，你甚至可能无需从其中导入任何内容。只要配置好模型，Transformers 包会自动处理所有相关操作。

通过创建 BitsAndBytesConfig 类的实例可以轻松完成配置：

bnb_config = BitsAndBytes

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

大模型与Agent智能体 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。