开源模型应用落地-qwen-7b-chat与vllm实现推理加速的正确姿势(三)

本文介绍了如何使用Supervisor管理和监控VLLM服务与gunicorn服务,确保模型推理的稳定性和可靠性。文章详细阐述了从安装Supervisor到配置自启动、项目配置、启动服务以及检查运行状态的全过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、前言

    可靠性是保证软件和系统正常运行、数据完整性、用户信任和满意度的关键要素。通过提高可靠性,可以降低业务中断的风险,增强用户信心,并减少故障排除和维护的成本,从而对组织的成功和效益产生积极影响。

    Supervisor是一种可以帮助管理和监控后台进程的工具,它可以自动重启崩溃的进程,并且可以在进程停止后自动启动它们。


二、前置知识

2.1. 了解如何启动vllm服务

         python -m vllm.entrypoints.api_server  --model  /data/model/qwen-7b-chat  --swap-space 24 --disable-log-requests --trust-remote-code --max-num-seqs 256 --host 0.0.0.0 --port 9000  --dtype float16 --max-parallel-loading-workers 1  --enforce-eager

        需要注意

  1.   显存不够的情况,max-parallel-loading-workers设置为1,同时根据显卡支持的类型,按实际情况设置dtype,当前显卡是Tesla V
### Qwen-GTE 部署指南 Qwen-GTE 是一种基于大语言模型的嵌入式表示方法,适用于多种自然语言处理任务。以下是关于如何部署 Qwen-GTE 的详细说明: #### 1. 准备环境 为了成功部署 Qwen-GTE,需要先安装必要的依赖库并配置好运行环境。可以参考以下命令来设置 Python 环境以及下载所需的模型权重。 ```bash pip install transformers sentence-transformers torch>=2.0.0 ``` 如果计划使用 GPU 加速,则需确认已正确安装 CUDA 和 cuDNN 库版本匹配的 PyTorch 版本[^2]。 #### 2. 下载预训练模型 通过 Hugging Face 提供的服务可以直接获取到 Qwen-GTE 模型的相关资源。例如对于 `GTE-Qwen2-7B-instruct` 或其他变体,可利用如下脚本来完成模型加载初始化工作。 ```python from transformers import AutoTokenizer, AutoModel tokenizer = AutoTokenizer.from_pretrained("Qwen/GTE-Qwen2-7B-instruct", trust_remote_code=True) model = AutoModel.from_pretrained("Qwen/GTE-Qwen2-7B-instruct", trust_remote_code=True).cuda() ``` 上述代码片段展示了如何从远程仓库拉取指定名称下的 GTE 模型及其对应的分词器工具类实例化过程。 #### 3. 使用 Llama.cpp 运行量化后的 GGUF 文件 当希望进一步优化推理性能时,可以选择将原始 FP16/BF16 权重转换成更低精度格式存储于本地磁盘上,并借助第开源项目如 llama.cpp 实现高效计算支持。具体操作流程参见下面给出的例子: 假设已经按照之前提到的方式准备好了一个名为 qwen2-7b-instruct-q5_k_m.gguf 的文件路径 `/root/autodl-tmp/qwen/Qwen2-7B-Instruct-GGUF/` ,那么可以通过执行下列 shell 命令启动交互对话界面[^1]: ```bash ./llama-cli \ -m /root/autodl-tmp/qwen/Qwen2-7B-Instruct-GGUF/qwen2-7b-instruct-q5_k_m.gguf \ -n 512 -co -i -if \ -f prompts/chat-with-qwen.txt \ --in-prefix "
评论 42
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

开源技术探险家

以微薄之力温暖这个世界

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值