Ubuntu22部署Qwen2.5-Omni-7B

部署Qwen2.5-Omni-7B模型,Qwen2.5-Omni-7B 是通义千问(Qwen)系列中一个 多模态、全能型的 70 亿参数模型(7B) ,适用于文本生成、对话理解、图像理解等任务。

硬件条件

支持精度:FP16 / INT8 / INT4

FP16 全精度推理(原生)

  • 显存占用:约 14GB
  • 特点:
    • 输出质量最高
    • 不建议在消费级卡上运行
  • 推荐显卡:
    • A10(24G)
    • RTX 3090 / 4090 / L40S(24G)

INT8 量化推理

  • 显存占用:约 8~10GB
  • 特点:
    • 几乎无损性能
    • 显存占用明显减少
  • 推荐显卡:
    • RTX 3090 / 4090 / L40S(12G 或以上)

INT4 量化推理

  • 显存占用:约 4~6GB
  • 特点:
    • 性能略有下降(尤其对复杂任务)
    • 可以部署在较低端 GPU 上

部署流程

本次服务器配置:腾讯云16核160G,H20显卡(96G),算力44+TFlops SP

基础环境:Driver 525.105.17,Python3.8,CUDA12,cuDNN8

a.安装源

#pip安装源,大陆从魔搭modelscope拉取模型文件
pip install modelscope
#更新transformers
pip install git+https://github.com/huggingface/transformers

b.下载

模型:魔搭社区

截至我写这个文章的时候,这个模型还不支持vllm部署,那就使用其他的,点击右边的下载模型,

执行这两条命令,大概几分钟,模型约21G

c.模型启动

Python3启动命令,使用 --gpu-memory-utilization 控制显存占用,这个命令就启动了,启动大概需要2-5分钟左右【不太推荐这种方式启动,看日志也不方便】

python3 -m vllm.entrypoints.openai.api_server  \
 --model /root/.cache/modelscope/hub/models/Qwen/Qwen2___5-Omni-7B  \ 
 --served-model-name Qwen2.5-Omni-7B   \
 --gpu-memory-utilization 0.4   \
 --dtype half   \
 --port 10010

添加到系统运行服务器中启动

vim /etc/systemd/system/qwen.service

添加

[Unit]
Description=Qwen2.5-Omni-7B
After=network.target

[Service]
Type=simple
WorkingDirectory=/root
ExecStart=/usr/bin/python3 -m vllm.entrypoints.openai.api_server \
    --model /root/.cache/modelscope/hub/models/Qwen/Qwen2___5-Omni-7B \
    --served-model-name Qwen2.5-Omni-7B \
    --gpu-memory-utilization 0.4 \
    --dtype half \
    --port 10010 \
    --trust-remote-code
Restart=always
RestartSec=5
User=root
Environment=PYTHONUNBUFFERED=1

[Install]
WantedBy=multi-user.target

重新加载 systemd 并启动服务

systemctl daemon-reexec
systemctl daemon-reload
systemctl enable qwen
systemctl start qwen

查看服务状态和日志

#查看运行状态
systemctl status qwen

#查看输出日志(实时)
journalctl -fu qwen

#如果失败,查看最近日志
journalctl -xeu qwen

### Ubuntu部署 Qwen 模型 #### 准备工作 为了顺利部署Qwen模型,在Ubuntu 20.04环境中,建议先创建一个新的Python虚拟环境以隔离不同项目的依赖关系。通过Conda工具可以方便地管理这些环境。 ```bash conda create -n qwen_env python=3.10 conda activate qwen_env ``` 这一步骤有助于避免版本冲突并保持系统的整洁[^2]。 #### Python 环境配置与依赖安装 进入新激活的虚拟环境后,需确保所有必要的Python包都已就绪: ```bash pip install wheel setuptools pip install -r requirements.txt export HF_ENDPOINT=https://hf-mirror.com/ ``` 这里`requirements.txt`文件应包含运行Qwen所需的所有第三方库列表;而设置`HF_ENDPOINT`环境变量则用于加速从Hugging Face下载资源的速度。 #### 下载预训练模型 接下来是从Hugging Face平台获取特定版本的Qwen大模型实例: ```bash huggingface-cli download --resume-download --local-dir-use-symlinks=False \ Qwen/Qwen-1.5-0.5B-Chat --local-dir=./Qwen1.5-0.5B-Chat ``` 此命令会将指定的大规模语言模型保存到本地目录下以便后续处理。 #### 模型转换优化 对于希望利用OpenVINO进行推理的应用场景来说,还需要执行额外的转换操作来适配目标硬件特性: ```bash python convert.py --model_id=./Qwen1.5-0.5B-Chat --precision=int4 \ --output=./Qwen1.5-0.5B-Chat-ov ``` 上述脚本负责将以PyTorch格式存储的原始权重参数转化为更适合高效计算的形式。 #### 解决潜在问题 如果遇到因某些软件包不兼容而导致的问题,可以通过强制重新安装较低版次的方式来绕过障碍: ```bash pip install "typing-extensions<5,>=4.11" -i https://pypi.tuna.tsinghua.edu.cn/simple -U --force-reinstall ``` 这条指令特别适用于修复由于高版本`typing_extensions`引发的功能异常情况[^3]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值