关键词:Atlas 910B、vLLM、Qwen-72B、MindIE、NPU、大模型推理
1. 为什么选 vLLM + Atlas 910B?
- 高吞吐:vLLM 的 PagedAttention 机制在 910B 上实测 >3000 tokens/s(Qwen-72B INT8)。
- 官方适配:昇腾已提供
vllm_npu
插件,零算子开发。 - 易集成:支持 OpenAI-API 格式,业务代码一行不改即可迁移。
2. 环境总览
组件 | 版本/说明 |
---|---|
硬件 | Atlas 800I A2(8×910B) |
OS | openEuler 24.03 LTS |
CANN | 7.0.RC3 |
Python | 3.10.2 |
PyTorch | 2.1.0 + torch_npu 2.1.0 |
vLLM | 0.4.2(昇腾 fork) |
模型 | Qwen-72B(官方 fp16 权重) |
3. 5 步完成部署
Step 1:安装驱动 & CANN(略)
按官方文档执行即可。
Step 2:创建虚拟环境
conda create -n vllm910b python=3.10
conda activate vllm910b
Step 3:一键安装 vLLM + Ascend 插件
git clone https://gitee.com/ascend/vllm-ascend.git
cd vllm-ascend
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install -e .
pip show vllm_npu # 验证出现 Version: 0.4.2
Step 4:准备 Qwen-72B 权重
# 任意位置存放
mkdir -p /data/models
huggingface-cli download Qwen/Qwen-72B --local-dir /data/models/Qwen-72B
Step 5:拉起在线服务
# 8 卡并行
bash examples/start_server.sh \
--model /data/models/Qwen-72B \
--dtype float16 \
--tensor-parallel-size 8 \
--port 8000
出现 Uvicorn running on 0.0.0.0:8000
即成功。
4. 客户端调用示例
curl http://localhost:8000/v1/completions \
-H "Content-Type: application/json" \
-d '{
"model": "/data/models/Qwen-72B",
"prompt": "华为昇腾 910B 的优势有哪些?",
"max_tokens": 256,
"temperature": 0.7
}'
返回示例:
{
"id": "cmpl-123",
"choices": [{"text": "1. 高算力密度:单卡 FP16 算力 320 TFLOPS...\n2. 高速片间互联:HCCS 总带宽 392 GB/s...\n3. 全栈国产化:从指令集到框架...","finish_reason": "stop"}]
}
5. 性能实测
场景 | 输入长度 | 输出长度 | 吞吐 (tokens/s) | 显存占用 |
---|---|---|---|---|
Qwen-72B fp16 | 128 | 512 | 3100 | 8×33 GB |
Qwen-72B INT8 | 128 | 512 | 3500 | 8×18 GB |
使用
msmodelslim
量化后性能提升 12%,显存减少 45%。
6. FAQ
问题 | 解决方案 |
---|---|
ImportError: libascendcl.so | CANN 环境变量未生效,执行 source /usr/local/Ascend/ascend-toolkit/set_env.sh |
CUDA_VISIBLE_DEVICES 报错 | vLLM 已自动屏蔽 CUDA,改用 ASCEND_RT_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 |
HTTPS 如何启用? | 启动加 --ssl-certfile server.crt --ssl-keyfile server.key 即可 |
7. 一键脚本仓库
- GitHub:https://github.com/Huawei-Ascend/vllm-ascend-examples
- Gitee 镜像:https://gitee.com/ascend/vllm-ascend
更新:2025-07-15
欢迎在评论区贴出你的nvitop
截图,一起卷性能!