vLLM 和 Xinference、Ollama 对 .safetensors 和 .gguf 格式的支持对比

最新推荐文章于 2025-07-14 23:29:08 发布

原创最新推荐文章于 2025-07-14 23:29:08 发布 · 3.1k 阅读

·

5

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#LLM #人工智能

chatgpt 专栏收录该内容

246 篇文章

订阅专栏

1. vLLM 的支持情况

.safetensors 格式
vLLM 原生支持通过 --load-format 参数加载 .safetensors 格式的模型权重。用户可通过设置 --load-format safetensors 直接加载此类文件，例如在部署时使用 vllm serve 命令，并指定模型路径。vLLM 默认优先尝试加载 .safetensors 格式（若存在），否则回退到 PyTorch 的 .bin 格式。
.gguf 格式
vLLM 从 0.6.2 版本开始支持 .gguf 格式的模型加载。需通过 --load-format gguf 显式指定格式，并搭配对应的量化参数（如 Q4_K_M）。例如，在 AMD GPU 上使用 ROCm 后端时，vLLM 能高效运行量化后的 .gguf 模型，且性能优于部分竞品。

2. Xinference 的支持情况

.safetensors 格式
Xinference 通过集成 Hugging Face 生态，默认支持 .safetensors 格式的模型加载（尤其是 Transformer 架构的模型）。例如，用户可直接从 Hugging Face 或 ModelScope 下载 .safetensors 模型，通过 xinference launch 命令部署。
.gguf 格式
Xinference 通过集成 llama.cpp 引擎支持 .gguf 格式。需在安装时启用 llama.cpp 后端（如设置 CMAKE_ARGS 适配硬件），并通过 Modelfile 指定 .gguf 文件路径。例如，在 CPU 或 Apple M 芯片上运行时，Xinference 可通过内存映射（mmap）高效加载量化后的 .gguf 模型。

3. Ollama 的支持情况

.safetensors 格式
Ollama 支持通过 Safetensors 适配器 微调后的模型导入。需在 Modelfile 中使用 ADAPTER 指令指向包含 .safetensors 文件的目录，例如将 Lora 微调后的适配器与基础模型结合使用。但需确保适配器与基础模型架构（如 Llama、Mistral）兼容。
.gguf 格式
Ollama 原生支持 .gguf 格式的模型部署。用户可直接在 Modelfile 中通过 FROM 指令指定 .gguf 文件路径（例如 FROM ./model.gguf），并利用 ollama create 命令注册模型。此外，Ollama 支持对 FP16/FP32 模型自动量化为 .gguf（如 Q4_K_M），优化显存占用。

总结

框架/格式	.safetensors	.gguf
vLLM	原生支持（需指定 `--load-format`）	支持（需显式指定格式及量化参数）
Xinference	通过 Hugging Face 默认支持	通过 llama.cpp 引擎支持
Ollama	支持适配器导入（非原生权重）	原生支持（直接加载或自动量化生成）

适用场景建议：

vLLM：适合需要高性能推理且依赖 GPU 资源的场景（如生产环境 API 服务）。
Xinference：适合多模态模型部署及 CPU/边缘设备上的灵活推理。
Ollama：适合本地快速部署量化模型，尤其适合个人开发者或资源受限环境。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

学亮编程手记 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。