在 Atlas 910B 上用 vLLM 拉起 Qwen-72B：一份可复制的昇腾部署指南

原创已于 2025-07-15 09:25:23 修改 · 171 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#算法

于 2025-07-15 09:25:02 首次发布

关键词：Atlas 910B、vLLM、Qwen-72B、MindIE、NPU、大模型推理

1. 为什么选 vLLM + Atlas 910B？

高吞吐：vLLM 的 PagedAttention 机制在 910B 上实测 >3000 tokens/s（Qwen-72B INT8）。
官方适配：昇腾已提供 vllm_npu 插件，零算子开发。
易集成：支持 OpenAI-API 格式，业务代码一行不改即可迁移。

2. 环境总览

组件	版本/说明
硬件	Atlas 800I A2（8×910B）
OS	openEuler 24.03 LTS
CANN	7.0.RC3
Python	3.10.2
PyTorch	2.1.0 + torch_npu 2.1.0
vLLM	0.4.2（昇腾 fork）
模型	Qwen-72B（官方 fp16 权重）

3. 5 步完成部署

Step 1：安装驱动 & CANN（略）

按官方文档执行即可。

Step 2：创建虚拟环境

conda create -n vllm910b python=3.10
conda activate vllm910b

Step 3：一键安装 vLLM + Ascend 插件

git clone https://gitee.com/ascend/vllm-ascend.git
cd vllm-ascend
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install -e .
pip show vllm_npu   # 验证出现 Version: 0.4.2

Step 4：准备 Qwen-72B 权重

# 任意位置存放
mkdir -p /data/models
huggingface-cli download Qwen/Qwen-72B --local-dir /data/models/Qwen-72B

Step 5：拉起在线服务

# 8 卡并行
bash examples/start_server.sh \
  --model /data/models/Qwen-72B \
  --dtype float16 \
  --tensor-parallel-size 8 \
  --port 8000

出现 Uvicorn running on 0.0.0.0:8000 即成功。

4. 客户端调用示例

curl http://localhost:8000/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "/data/models/Qwen-72B",
    "prompt": "华为昇腾 910B 的优势有哪些？",
    "max_tokens": 256,
    "temperature": 0.7
  }'

返回示例：

{
  "id": "cmpl-123",
  "choices": [{"text": "1. 高算力密度：单卡 FP16 算力 320 TFLOPS...\n2. 高速片间互联：HCCS 总带宽 392 GB/s...\n3. 全栈国产化：从指令集到框架...","finish_reason": "stop"}]
}

5. 性能实测

场景	输入长度	输出长度	吞吐 (tokens/s)	显存占用
Qwen-72B fp16	128	512	3100	8×33 GB
Qwen-72B INT8	128	512	3500	8×18 GB

使用 msmodelslim 量化后性能提升 12%，显存减少 45%。

6. FAQ

问题	解决方案
`ImportError: libascendcl.so`	CANN 环境变量未生效，执行 `source /usr/local/Ascend/ascend-toolkit/set_env.sh`
`CUDA_VISIBLE_DEVICES` 报错	vLLM 已自动屏蔽 CUDA，改用 `ASCEND_RT_VISIBLE_DEVICES=0,1,2,3,4,5,6,7`
HTTPS 如何启用？	启动加 `--ssl-certfile server.crt --ssl-keyfile server.key` 即可