【全网首个】华为NPU使用MindIE推理部署Qwen3系列

再吃一颗苹果cc

已于 2025-05-09 11:29:04 修改

阅读量2k

点赞数 4

CC 4.0 BY-SA版权

文章标签：人工智能自然语言处理华为 gpt transformer

于 2025-05-06 15:31:56 首次发布

本文链接：https://blog.csdn.net/qq_41994821/article/details/147729151

省略docker和模型下载，可参考我的其他文章。

基于mindie镜像部署，首先解压并load 镜像。
前往昇腾社区/开发资源下载适配本模型的镜像包mindie:2.0.T17.B010-800I-A2-py3.11-openeuler24.03-lts-aarch64.tar.gz

docker load -i mindie_2.0.T17.B010-800I-A2-py3.11-openeuler24.03-lts-aarch64.tar.gz(下载的镜像名称与标签)

完成加载镜像后，请使用docker images命令确认查找具体镜像名称与标签。

当前容器支持TP=1/2/4/8推理

新建容器

docker run -it -d --net=host --shm-size=1g \
    --name qwen314b \
    --device=/dev

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

再吃一颗苹果cc

关注关注

4
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

昇腾，Ascend，NPU，mindie，镜像，部署vllm：第4篇，尝试多模态大模型部署（Qwen2-vl）

xiezhipu的博客

02-10

2272

一直想部署一个多模态大模型，今天就以Qwen2-vl为例尝试一番吧。（当然是在昇腾环境下）提示：需要把这篇文章先看一遍昇腾，mindie，镜像，部署vllm：第2篇，启动mindieservice_daemon服务，支持对Qwen2.5的7B版本的推理提示：本文章的撰写思路是，按照一个思路进行部署，报错，并反思，并解决。所以不太适合直接上来就跟着一步一步做。建议看完全文，再根据自己的理解做。

MindIE Service服务化集成部署通义千问Qwen模型

qq_36344652的博客

07-30

3869

在基于MindIE实现千问Qwen推理加速后，继续研究了MindIE Service，将部署经验分享给需要的人

1 条评论您还未登录，请先登录后发表或查看评论

华为NPU服务器昇腾Ascend 910B2部署通义千问Qwen2.5——基于mindie镜像一路试错版（二）

xiezhipu的博客

12-03

3020

我们在上一篇文章华为NPU服务器昇腾Ascend 910B2部署通义千问Qwen2.5——基于mindie镜像一路试错版（一）中，介绍了一些准备工作。我估计这些东西下载好还是需要一点时间的，如果你幸运地通过了这些考验，还想继续的话，就来看看这一篇吧。在本篇文章中，我们继续深入探讨了如何在华为NPU服务器昇腾Ascend 910B2上部署通义千问Qwen2.5模型。

A8W4量化方案，Atlas 800I A2 单机部署满血DeepSeek V3

Huatee的专栏

06-18

350

下载MindIE镜像：2.0.RC1.B120-800I-A2-py3.11-openeuler24.03-lts-aarch64。Atlas 800I A2 单卡64GB显存，服务器内存1.5T以上。生成DeepSeek-R1模型 w4a8 混合量化权重。量化后的权重配置文件，修改数据类型为float16。量化开始前，需要对权重文件夹里的部分文件做处理。下载msit量化工具msmodelslim，如有需要，可使用已量化后的开源权重。8卡量化时间约y5小时。

阿里Qwen3登顶全球开源王座！暴击DeepSeek-R1，2小时狂揽17k星

youmaob的博客

04-29

770

就在今天凌晨，备受全球期待的阿里新一代通义千问模型Qwen3开源！一经问世，它立刻登顶全球最强开源模型王座。它的参数量仅为DeepSeek-R1的1/3，但成本大幅下降，性能全面超越R1、OpenAI-o1等全球顶尖模型。Qwen3是国内首个「混合推理模型」，「快思考」与「慢思考」集成进同一个模型，对简单需求可低算力「秒回」答案，对复杂问题可多步骤「深度思考」，大大节省算力消耗。它采用混合专家（MoE）架构，总参数量235B，激活仅需22B。

Mindie LLM模型推理（Qwen）

2301_79605018的博客

06-23

1804

通过部署昇腾服务化配套包后，以调用终端命令的方式测试llm在不同配置参数下推理性能和精度，通过表格的形式展示模型在各个阶段的推理耗时（例如FirstTokenTime、DecodeTime等），以及对应时延的平均值、最小值、最大值、75分位（P75）和99分位（P99）概率统计值，最后将计算结果保存到本地csv文件中。在输入输出长度不变的情况下，如果batchsize增加，时延增加，同时吞吐量也增加（大batch size需要更多内存，在NPU内存够时候，基本呈线性增长）

基于昇腾MindIE推理工具部署Qwen-72B实战（推理引擎、推理服务化）

顺其自然~专栏

03-19

1640

MindIE（Mind Inference Engine，昇腾推理引擎）是华为昇腾针对AI全场景业务的推理加速套件。通过分层开放AI能力，支撑用户多样化的AI业务需求，使能百模千态，释放昇腾硬件设备算力。向上支持多种主流AI框架，向下对接不同类型昇腾AI处理器，提供多层次编程接口，帮助用户快速构建基于昇腾平台的推理业务。主要包括模型推理引擎 MindIE和模型服务化 MindIE-Service。从算子、模型、应用三大维度，全面加速推理部署。模型推理引擎：MindIE。

基于昇腾MindIE开箱部署Qwen2.5-VL-32B，体验更聪明的多模态理解能力

2401_87243659的博客

03-31

3732

昇腾MindIE已适配支持Qwen2.5-VL-32B-Instruct并上架魔乐社区，欢迎广大开发者下载体验！

MindIE关于Qwen3 如何开启和关闭思考模式【说明版】

最新发布

mizhiakk的博客

07-01

2079

Qwen3模型可通过三种方法控制思考模式：(1) Prompt追加/no_think快速关闭思考；(2) API调用时设置enable_thinking参数动态控制；(3) 修改配置文件改变默认行为。其中Prompt方式最便捷，API参数灵活性高，配置文件适合固定部署场景。思考模式会显著影响推理速度，建议根据任务需求选择控制方法，不同部署框架需注意兼容性差异。未来可能通过Agent框架实现自动切换功能。

国产化推理引擎实现通义千问推理加速

qq_36344652的博客

07-30

1554

根据MindIE实现Qwen推理加速的部署经验，分享给需要的人

目标检测中COCO评估指标中每个指标的具体含义说明：AP、AR

阿旭的博客

03-30

1479

目标检测中COCO评估指标中每个指标的具体含义说明：AP、AR

华为MindIE初体验：Qwen1.5-14B-Chat模型40并发推理实测

强化学习曾小健

08-03

4093

原创 XC272024年07月03日 22:14北京最近发现华为NPU的生态里多了一个成员——MindIE，部分解决了大模型推理的问题，下面简要介绍下Mind华为昇腾NPU卡的生态。

华为NPU服务器昇腾Ascend 910B2部署通义千问Qwen2.5——基于mindie镜像一路试错版（一）

xiezhipu的博客

12-03

5178

NPU（Neural Processing Unit，神经网络处理单元）是一种专门设计用于加速机器学习尤其是深度学习算法的硬件处理器。随着人工智能技术的发展，特别是深度学习模型变得越来越复杂和庞大，传统的CPU和GPU在处理这些任务时遇到了效率和能耗上的瓶颈。因此，针对深度学习算法的特点优化的专用芯片——NPU应运而生。NPU的核心优势在于它能够高效地执行矩阵运算、卷积操作等深度学习中的基本计算任务。这使得NPU可以在图像识别、语音识别、自然语言处理等领域提供比传统处理器更高的性能和更低的功耗。

mindie近期报错总结

yuanlulu的博客

05-07

1484

总结最近适应mindie部署遇到的错误及解决方法

昇腾910A单卡与多卡部署mindie框架开启qwen2-7B大模型api

qq_38001481的博客

11-21

3603

注意该命令是将npu0-7全部加载到容器中，由于910不支持容器共享（被该容器占用后，就不能被其他容器调用），所以只想加载部分卡时，修改--device=/dev/davincix部分。注：如果启动报错，可以查看/usr/local/Ascend/mindie/1.*/mindie-service/logs下的log文件。性能测试配置环境及环境变量（好像不export也没什么影响，export有时候还会报错，但是不影响后面的服务）昇腾大模型推理解决方案MindIE部署_mindie安装-CSDN博客。

昇腾大模型推理解决方案MindIE部署

热门推荐

深蓝

09-20

1万+

昇腾大模型推理解决方案MindIE部署笔记，并且分享给大家

Qwen3在昇腾卡上的训练和推理部署

weixin_41374321的博客

05-15

2394

qwen模型 MindIE PD分离部署问题定位

weixin_42619941的博客

05-06

100

需要清楚controller、coordinator、P server和D server节点的职责，再根据日志中的error信息和fail信息进行逐步分析。

AI大模型学习三十二、飞桨AI studio 部署免费Qwen3-235B与Qwen3-32B，并导入dify应用

浪淘沙jkp的专栏

06-04

1157

‌‌参数规模。

华为NPU使用docker部署llama-factory

03-12

### 华为NPU Docker部署 LLama-Factory 教程 #### 准备工作为了在华为NPU上使用Docker部署LLama-Factory，需先完成必要的准备工作。这包括但不限于安装并配置Docker环境，在华为EulerOS 2.0 (aarch64架构) 上的操作可参照特定指导文档[^1]。 #### 获取镜像执行如下命令来拉取适用于Ascend NPU的LLama-Factory Docker镜像： ```bash docker pull swr.cn-east-317.qdrgznjszx.com/donggang/llama-factory-ascend910:cann8-py310-torch2.2.0-ubuntu18.04 ``` #### 编写启动脚本创建用于运行容器的Shell脚本`docker_run.sh`，并通过编辑器如vim对其进行修改以适应具体需求： ```bash touch docker_run.sh vim docker_run.sh ``` 此阶段应确保编写的脚本能正确加载所需的硬件驱动程序和支持库文件，并设置合理的参数以便顺利启动容器化应用。 #### 多卡训练支持值得注意的是，自0.8版起LLama-Factory已经加入了对于多卡训练的支持，特别是针对华为 Ascend 920B3 的优化使得其能够更加简便地实现这一特性而不需要复杂的额外配置过程[^2]。 #### CANN环境搭建考虑到LLama-Factory依赖于CANN（Compute Architecture of Neural Network），因此还需要下载最新版本的CANN软件包并按照官方说明完成安装流程[^3]。 #### 开始微调与训练最后一步则是进入项目目录并初始化所需Python包，同时确认集群环境中各节点间的通信正常无误： ```bash cd LLaMA-Factory pip install -e ".[metrics]" env | grep RANK_TABLE_FILE ``` 上述操作完成后即可以开始利用华为NPU进行大规模预训练模型的微调作业了[^4]。