部署Qwen2.5-Omni-7B模型,Qwen2.5-Omni-7B 是通义千问(Qwen)系列中一个 多模态、全能型的 70 亿参数模型(7B) ,适用于文本生成、对话理解、图像理解等任务。
硬件条件
支持精度:FP16 / INT8 / INT4
FP16 全精度推理(原生)
- 显存占用:约 14GB
- 特点:
- 输出质量最高
- 不建议在消费级卡上运行
- 推荐显卡:
- A10(24G)
- RTX 3090 / 4090 / L40S(24G)
INT8 量化推理
- 显存占用:约 8~10GB
- 特点:
- 几乎无损性能
- 显存占用明显减少
- 推荐显卡:
- RTX 3090 / 4090 / L40S(12G 或以上)
INT4 量化推理
- 显存占用:约 4~6GB
- 特点:
- 性能略有下降(尤其对复杂任务)
- 可以部署在较低端 GPU 上
部署流程
本次服务器配置:腾讯云16核160G,H20显卡(96G),算力44+TFlops SP
基础环境:Driver 525.105.17,Python3.8,CUDA12,cuDNN8
a.安装源
#pip安装源,大陆从魔搭modelscope拉取模型文件
pip install modelscope
#更新transformers
pip install git+https://github.com/huggingface/transformers
b.下载
模型:魔搭社区
截至我写这个文章的时候,这个模型还不支持vllm部署,那就使用其他的,点击右边的下载模型,
执行这两条命令,大概几分钟,模型约21G
c.模型启动
Python3启动命令,使用 --gpu-memory-utilization
控制显存占用,这个命令就启动了,启动大概需要2-5分钟左右【不太推荐这种方式启动,看日志也不方便】
python3 -m vllm.entrypoints.openai.api_server \
--model /root/.cache/modelscope/hub/models/Qwen/Qwen2___5-Omni-7B \
--served-model-name Qwen2.5-Omni-7B \
--gpu-memory-utilization 0.4 \
--dtype half \
--port 10010
添加到系统运行服务器中启动
vim /etc/systemd/system/qwen.service
添加
[Unit]
Description=Qwen2.5-Omni-7B
After=network.target
[Service]
Type=simple
WorkingDirectory=/root
ExecStart=/usr/bin/python3 -m vllm.entrypoints.openai.api_server \
--model /root/.cache/modelscope/hub/models/Qwen/Qwen2___5-Omni-7B \
--served-model-name Qwen2.5-Omni-7B \
--gpu-memory-utilization 0.4 \
--dtype half \
--port 10010 \
--trust-remote-code
Restart=always
RestartSec=5
User=root
Environment=PYTHONUNBUFFERED=1
[Install]
WantedBy=multi-user.target
重新加载 systemd 并启动服务
systemctl daemon-reexec
systemctl daemon-reload
systemctl enable qwen
systemctl start qwen
查看服务状态和日志
#查看运行状态
systemctl status qwen
#查看输出日志(实时)
journalctl -fu qwen
#如果失败,查看最近日志
journalctl -xeu qwen