内网部署VLLM+本地大模型，避坑指南

原创

已于 2025-04-21 16:45:58 修改 · 1.3k 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

于 2025-04-10 10:02:18 首次发布

内网部署VLLM+本地大模型，避坑指南

安装vllm
下载模型文件
- 模型copy目录
内网启动vllm
- 验证vllm启动后参数
部署踩坑情况
- 找到几篇不错相关文章分享给大家-持续更新：

安装vllm

通过docker容器的形式拉包，非pip包部署！不包含nvidia的驱动安装，默认已经有gpu卡！

容器拉vllm最新的包

在外网电脑docker拉包，注意这里包是不能断点续传的找个网络好的环境一次性下载完，总体大约16G，我的是0.8.1版本。

docker pull vllm/vllm-openai:latest

容器打包镜像

docker save -o vllm_image.tar vllm/vllm-openai:latest

内网容器加载镜像

docker load -i vllm_image.tar
docker images # 查看是否已经加载成功

输出结果如图

下载模型文件

模型搜索下载可以点击https://hf-mirror.com/
vllm当前版本可以支持的模型参考https://vllm.hyper.ai/docs/models/supported-models
注意：这里需要评估一下自己卡的gpu是不是够，如果一张15G的卡要启动17G的模型是起不来的！

模型copy目录

mkdir /vllm/models # 内网创建模型读取的目录

在外网下载好全部的模型文件，一般包括配置文件config.json/params和.pth/.onnx/model.safetensors等，整个文件包都要下载下来。在内网解压后以模型命名存储在文件夹里，绝对路径为：/vllm/models/bge-reranker-v2-m3/

[root@localhost models] ll
tot

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

*U.M.R^

关注关注

18
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

SpringAI×Ollama：Java生态无缝集成本地大模型实践指南

fudaihb的博客

07-10

540

随着大语言模型（LLM）的普及，数据隐私和技术栈统一性成为企业级AI应用的核心挑战。本文系统阐述如何通过SpringAI框架与Ollama本地化模型引擎的结合，构建安全高效的生成式AI应用。通过实战案例解析配置优化、流式响应、工具调用等关键技术，为Java开发者提供零Python依赖的LLM集成方案，显著降低AI应用开发门槛。

QLoRA 精调模型如何部署上线？FastAPI 封装 × Docker 打包 × 多模型热切换实战指南

努力分享一些人工智能、计算机视觉、影像等相关的知识干货！

04-02

2028

很多人做到这一步已经训练出了一个挺不错的国产大模型微调版本，但随之而来的问题是：“我怎么把它做成一个 API？“怎么上线一套本地服务供团队调用？“要不要上 vLLM？用 Docker 好不好？我们先快速了解几种常见的部署方式，然后再进入实战。

参与评论您还未登录，请先登录后发表或查看评论

利用vLLM进行开源大模型本地部署（待继续刷新）

baidu_20834545的专栏

04-25

1720

通过vLLM本地部署开源大模型

Linux环境下使用vLLM部署本地大模型

剑飞的架构思维

02-07

7016

通过以上步骤，您可以在Linux环境下成功部署vLLM并运行大模型服务。在实际操作中，可能需要根据具体的vLLM版本和模型文件进行调整和优化。后续的步骤3和步骤4将依赖于该服务进行测试，因此请务必不要关闭此终端窗口。下载成功后，模型文件会保存在./model/qwen2_5-1_5b-instruct文件夹下。本课程实验环境需与微调章节保持一致，确保在GPU环境下执行模型部署操作。如果你希望在后台持续运行服务而不受终端窗口关闭的影响，可以使用这条命令。下载开源模型进行部署，暂不在此演示。

AI本地部署难？这篇小白教程（vllm）让你秒懂，从此告别云服务器！

热门推荐

哦豁灬

04-04

4万+

vLLM 是来自 UC Berkeley 的 LMSYS 在 LLM 推理方面的最新工作（没错就是搞出 Vicuna 的那个 group），最大亮点是采用 Paged Attention 技术，结合 Continuous Batching，极大地优化了 realtime 场景下的 LLM serving 的 throughput 与内存使用。

Ollama本地安装+DeepSeek大模型本地部署+OpenWebUI界面

寓教于乐。教己助人

02-14

898

Ollama 是一个开源的大型语言模型（LLM）运行工具，支持在本地部署和运行多种开源大模型（如 Llama2、Qwen、Mistral 等）。它简化了模型的管理和调用，适合开发者、研究人员和 AI 爱好者使用。

本地部署DeepSeek 67B大模型实战指南：Hugging Face与Ollama双方案解析 —— 从企业级到轻量化，手把手教你玩转百亿参数模型

2302_80643506的博客

02-15

1547

近年来，大语言模型（LLM）的本地部署成为开发者与企业关注的核心课题。DeepSeek 67B作为国产顶尖开源大模型，凭借其强大的生成能力与多场景适配性，成为众多开发者的首选。然而，其庞大的参数规模（约260GB）与高硬件需求，也让部署过程充满挑战。：Ollama方案可通过量化大幅降低显存需求（最低单卡24GB即可运行）！：本文为博主原创文章，未经博主允许禁止转载。：欢迎在评论区分享你的部署经验或遇到的难题，共同探讨优化方案！，覆盖从企业级生产环境到个人开发的完整链路，助你轻松避坑！

【VLLM】大模型本地化部署

qq_62223405的博客

07-13

1254

vLLM 非常适合中高级开发者、AI 工程团队，在具备一定 GPU 资源的前提下部署高效、低成本、可控的大语言模型服务，尤其适合本地化、安全敏感、高并发调用等场景。

记录-内网部署vllm分布式推理DeepSeekR1:70b

weixin_41485466的博客

04-25

也可以通过nohup后台运行，如：nohup bash run_cluster.sh vllm/vllm-openai:v0.6.4.post1 主机ip --worker /data/vllm_model -v /data/vllm_model/:/model/ -e GLOO_SOCKET_IFNAME=ens13f0 -e NCCL_SOCKET_IFNAME=ens13f0 >/ray_file 2>&1 &/data/vllm_model为你模型文件的位置，如下图则启动成功。

使用vllm部署自己的大模型

刘炫320的博客

04-26

3万+

使用vllm能够部署一个非常方便使用的大模型的后端，供webui前端使用，它不仅能够加速模型的推理过程，包括支持fast-attn库，而且还具有很友好的openai风格的api调用功能。

大模型实战教程 | 用vllm快速部署大模型

Code1994的博客

12-15

3897

在迅速发展的AI领域中，高效部署大型语言模型（LLM）对于许多应用程序至关重要。对于希望利用LLM力量的开发人员和组织来说，vLLM提供了一种简单、快速且经济高效的解决方案，用于在GPU上运行模型。本文将指导您完成vLLM的安装、在服务器上运行它以及将其集成到应用程序中的步骤。

windows本地部署vllm,运行deepseek大模型

zxhy0123的博客

02-28

9125

windows本地部署vllm,加载大模型

使用 vLLM 部署本地 LLM 指南

spicy_chicken123的博客

01-24

4万+

我们输入以下命令启动服务器，–model 为本地模型的路径，–served-model-name 是模型在服务器中的别名，这里我们取简称 openchat，其他都是默认值，当然也可以自己设置。在这里我们不演示了，直接将 vLLM 部署为模仿 OpenAI API 协议的服务器，这使得 vLLM 可以用作使用 OpenAI API 的应用程序的直接替代品。当然，你也可以试一试 ChatCompletions 格式的请求，ChatCompletions API 的请求内容如下，两种的格式还是有一些区别的。