在 Atlas 910B 上用 vLLM 拉起 Qwen-72B:一份可复制的昇腾部署指南

关键词:Atlas 910B、vLLM、Qwen-72B、MindIE、NPU、大模型推理


1. 为什么选 vLLM + Atlas 910B?

  • 高吞吐:vLLM 的 PagedAttention 机制在 910B 上实测 >3000 tokens/s(Qwen-72B INT8)。
  • 官方适配:昇腾已提供 vllm_npu 插件,零算子开发
  • 易集成:支持 OpenAI-API 格式,业务代码一行不改即可迁移。

2. 环境总览

组件版本/说明
硬件Atlas 800I A2(8×910B)
OSopenEuler 24.03 LTS
CANN7.0.RC3
Python3.10.2
PyTorch2.1.0 + torch_npu 2.1.0
vLLM0.4.2(昇腾 fork)
模型Qwen-72B(官方 fp16 权重)

3. 5 步完成部署

Step 1:安装驱动 & CANN(略)

官方文档执行即可。

Step 2:创建虚拟环境

conda create -n vllm910b python=3.10
conda activate vllm910b

Step 3:一键安装 vLLM + Ascend 插件

git clone https://gitee.com/ascend/vllm-ascend.git
cd vllm-ascend
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install -e .
pip show vllm_npu   # 验证出现 Version: 0.4.2

Step 4:准备 Qwen-72B 权重

# 任意位置存放
mkdir -p /data/models
huggingface-cli download Qwen/Qwen-72B --local-dir /data/models/Qwen-72B

Step 5:拉起在线服务

# 8 卡并行
bash examples/start_server.sh \
  --model /data/models/Qwen-72B \
  --dtype float16 \
  --tensor-parallel-size 8 \
  --port 8000

出现 Uvicorn running on 0.0.0.0:8000 即成功。


4. 客户端调用示例

curl http://localhost:8000/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "/data/models/Qwen-72B",
    "prompt": "华为昇腾 910B 的优势有哪些?",
    "max_tokens": 256,
    "temperature": 0.7
  }'

返回示例:

{
  "id": "cmpl-123",
  "choices": [{"text": "1. 高算力密度:单卡 FP16 算力 320 TFLOPS...\n2. 高速片间互联:HCCS 总带宽 392 GB/s...\n3. 全栈国产化:从指令集到框架...","finish_reason": "stop"}]
}

5. 性能实测

场景输入长度输出长度吞吐 (tokens/s)显存占用
Qwen-72B fp1612851231008×33 GB
Qwen-72B INT812851235008×18 GB

使用 msmodelslim 量化后性能提升 12%,显存减少 45%。


6. FAQ

问题解决方案
ImportError: libascendcl.soCANN 环境变量未生效,执行 source /usr/local/Ascend/ascend-toolkit/set_env.sh
CUDA_VISIBLE_DEVICES 报错vLLM 已自动屏蔽 CUDA,改用 ASCEND_RT_VISIBLE_DEVICES=0,1,2,3,4,5,6,7
HTTPS 如何启用?启动加 --ssl-certfile server.crt --ssl-keyfile server.key 即可

7. 一键脚本仓库


更新:2025-07-15
欢迎在评论区贴出你的 nvitop 截图,一起卷性能!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

从零开始学习人工智能

你的鼓励将是我创作的最大动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值