开源模型应用落地-qwen-7b-chat与vllm实现推理加速的正确姿势（三）

开源技术探险家

已于 2024-03-14 17:41:47 修改

阅读量3.9k

点赞数 418

CC 4.0 BY-SA版权

分类专栏：开源模型-实际应用落地 # 开源大语言模型-vllm推理加速的正确姿势文章标签：深度学习自然语言处理语言模型

于 2024-01-11 10:00:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq839019311/article/details/135509560

开源模型-实际应用落地同时被 2 个专栏收录

251 篇文章 ¥89.90 ¥99.00

订阅专栏

超级会员免费看

开源大语言模型-vllm推理加速的正确姿势

48 篇文章 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了如何使用Supervisor管理和监控VLLM服务与gunicorn服务，确保模型推理的稳定性和可靠性。文章详细阐述了从安装Supervisor到配置自启动、项目配置、启动服务以及检查运行状态的全过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、前言

可靠性是保证软件和系统正常运行、数据完整性、用户信任和满意度的关键要素。通过提高可靠性，可以降低业务中断的风险，增强用户信心，并减少故障排除和维护的成本，从而对组织的成功和效益产生积极影响。

Supervisor是一种可以帮助管理和监控后台进程的工具，它可以自动重启崩溃的进程，并且可以在进程停止后自动启动它们。

二、前置知识

2.1. 了解如何启动vllm服务

python -m vllm.entrypoints.api_server --model /data/model/qwen-7b-chat --swap-space 24 --disable-log-requests --trust-remote-code --max-num-seqs 256 --host 0.0.0.0 --port 9000 --dtype float16 --max-parallel-loading-workers 1 --enforce-eager

需要注意

显存不够的情况，max-parallel-loading-workers设置为1，同时根据显卡支持的类型，按实际情况设置dtype，当前显卡是Tesla V

了解本专栏

超级会员免费看

评论 42

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

开源技术探险家 以微薄之力温暖这个世界

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。