目 录
前言
先说一句大白话:想自己跑 Stable Diffusion,真折腾。显卡太老直接罢工,驱动版本一打错就黑屏,环境变量还要靠玄学 Win+R。所以当我看见蓝耘把 ComfyUI 做成“打开浏览器就能用”,心里是直接放烟花的——步骤只有三步:注册、扫码、点“开机”。显卡 4090 他们替你供,电费他们替你掏,咱们只要能连上网,就能在地铁上手机拖节点。
这时候阿里又丢了一个狠货:Qwen-Image。20B 的大模型,能把中文直接刻在图里,改细节也有板有眼。本地部署,顺手把它包成 ComfyUI 的一个节点,拖进去就能用,不用再跑什么 Git Clone、魔法上网。为了让你也少走弯路,我就把这两口新锅端到一块写篇文章:前半段教你蓝耘 ComfyUI 怎么开;后半段告诉你怎么把 Qwen-Image 塞进去,“点两下就出片”。
如果你也是个怕麻烦的懒人,这两篇实操足够让你边泡奶茶边出图。现在开始,咱们把“搞机”留给机器,把快乐留给自己。
先说说蓝耘这个平台
如何注册蓝耘智算平台
1.点击注册链接:蓝耘智算平台
2.进入下面图片界面,输入手机号并获取验证码,输入邮箱,设置密码,点击注册在这里插入图片描述
蓝耘是一家专业的GPU算力云服务提供商,基于行业领先的灵活的基础设施及大规模的GPU算力资源,为客户提供开放、高性能、高性价比的算力云服务,助力客户AI模型构建、训练和推理的业务全流程。
说白了,就是专门提供GPU算力的云服务商。我之前用过他们的服务训练一些小模型,感觉还不错。这次蓝耘新发布了ComfyUI - 2025最新版,直接web部署一站式使用,非常方便,并且响应速度确实挺快的。
如何开发并使用蓝耘的ComfyUI-最新版
登录之后,我们在点在导航栏处理的应用云,搜索ComfyUI即可,之后选择最新版的这个单击部署。
这里建议大家选择4090哈,毕竟便宜
这里创建成功之后,点击快速启动应用即可进入web端
然后我们成功进入web界面,如果是熟悉的同学,唯一的区别就是比之前更强大了
将鼠标的指针放上去之后会有中文提示,大家不用再担心看不懂的问题了
同时这里了一样可以选择开发模式,来进行匹配API
配置ConfyUI相关内容
模型下载链接:
Diffusion Model / 扩散模型:qwen_image_fp8_e4m3fn.safetensors
Text Encoder 文本编码器:qwen_2.5_vl_7b_fp8_scaled.safetensors
VAE :qwen_image_vae.safetensors
模型目录大概如下所示:
📂 ComfyUI/
├── 📂 models/
│ ├── 📂 diffusion_models/
│ │ └── qwen_image_fp8_e4m3fn.safetensors
│ ├── 📂 vae/
│ │ └── qwen_image_vae.safetensors
│ └── 📂 text_encoders/
│ └── qwen_2.5_vl_7b_fp8_scaled.safetensors
运行步骤
- 加载模型文件
- 在 Load Diffusion Model 节点中加载:qwen_image_fp8_e4m3fn.safetensors
- 在 Load CLIP 节点中加载:qwen_2.5_vl_7b_fp8_scaled.safetensors
- 在 Load VAE 节点中加载:qwen_image_vae.safetensors
设置图像尺寸
输入提示词
下面有生成结果哈,这里就不浪费口舌了。
这里给大家送给福利。大量的token都在送,感兴趣的赶紧来吧
https://console.lanyun.net/#/register?promoterCode=18586cc762
说到 Lora 写实风格模型,总是逃不开老朋友 civitai.com
阿里模型简介
8月5号凌晨,阿里又搞了个大新闻——Qwen-Image 正式露面。这套文生图的开源模型,块头 20B,用了一个叫 MMDiT 的多模态扩散架构,许可证还是老样子 Apache 2.0,拿去用就行。别小看它,这可是通义千问系列的第一个会画画的兄弟。更香的是,不管是长篇大论的中文,还是奶茶杯子上的英文口号,它都能原样图上蹦出来;如果你想把背景换掉、颜色调一下、细节扣得再准一点,它也能稳住不翻车。一句话:屏幕敲几下,人话变美图,这就给你整活了。
配置ConfyUI相关内容以及 Qwen-Imgae Json WorkFlow
关于ComfyUI有不了解的同学可以私下自学一下,个人认为还是非常好操作的,并且也有一系列的教程,有需要我单独出一期也行,这里就不多做介绍。
官网地址:https://www.comfy.org/zh-cn/
如果你之前下载过ComfyUI,那你就只需要双击 ComfyUI根路径下的 update 文件夹里的update_comfyui_stable.bat 即可完成更新。
下载模型
千问团队开放了 40B 和 20B量化版本这两种参数的模型。这里选用了 20B 量化模型。https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/tree/main/non_official/diffusion_models
这个量化模型下载完整之后,还需要下载编码器和 VAE。https://comfyanonymous.github.io/ComfyUI_examples/qwen_image/
下载好了这些模型,移动到对应的文件夹。
启动 ComfyUI 加载工作流,使用示例提示词生成图片
把电脑里那个叫 ComfyUI 的文件夹找出来,瞅瞅里面有个 run_nvidia_gpu.bat 的小方块(名字看着像批处理文件的那种),点两下鼠标左键。
你猜怎么着?它会弹出个黑框框(这玩意儿叫 Terminal,别管它,当它是电脑在深呼吸),等几秒,别急,等它自己吭哧吭哧完事了——
自动! 你电脑默认的浏览器(比如Chrome、Edge或者火狐)会自己蹦出来,新开一个页签,上面就是 ComfyUI 的操作台了。
接着干啥?
打开浏览器,去这个地址:
https://comfyanonymous.github.io/ComfyUI_examples/qwen_image/
(别问这是哪,直接粘贴进去按回车就行)
这页面上肯定有张图,你用鼠标左键按住不放,把那张图拽到刚刚打开的 ComfyUI 界面里。
拽进去之后,你再仔细瞧瞧,屏幕上是不是多了一堆连着线的彩色小方块?
对,这就是 Qwen-Image 的现成图纸(咱们叫它工作流)。
现在,你得给这图纸填内容:
在 ComfyUI 界面里,找到那个专门写文字的地方(一般是个输入框),把 Qwen-Image 官方给的那串提示词(就是它要求你必须输入的指令文字)一字不差 地敲进去。
搞定!剩下的事,就交给电脑自己琢磨去吧。
(如果卡住或者报错,别死磕,记下错哪行,去大佬文章底部吼一声,比你瞎琢磨快)
写入 Qwen-Image 官方提示词
宫崎骏的动漫风格。平视角拍摄,阳光下的古街热闹非凡。一个穿着青衫、手里拿着写着“阿里云”卡片的逍遥派弟子站在中间。旁边两个小孩惊讶的看着他。左边有一家店铺挂着“云存储”的牌子,里面摆放着发光的服务器机箱,门口两个侍卫守护者。右边有两家店铺,其中一家挂着“云计算”的牌子,一个穿着旗袍的美丽女子正看着里面闪闪发光的电脑屏幕;另一家店铺挂着“云模型”的牌子,门口放着一个大酒缸,上面写着“千问”,一位老板娘正在往里面倒发光的代码溶液。
虽然与官方给出的图片有些许出入,但这已经很不错了,至少在中文渲染上面,没有出现所谓的乱码。毕竟这是量化版本。Qwen-Image官方示例
提示词:https://qwenlm.github.io/blog/qwen-image/
Lora 模型加持
工作流下载地址:
https://raw.githubusercontent.com/Comfy-Org/workflow_templates/refs/heads/main/templates/image_qwen_image.json
(别问这是啥,直接粘贴进去按回车)
然后点浏览器右上角那个↓箭头(下载),或者右键选 “另存为”,直接保存到你电脑里(比如桌面上),文件名就叫它 qwen_image.json 也行,记住存哪了。
把图纸拖进 ComfyUI:
打开你之前用过的 ComfyUI 界面(就是之前弹出浏览器的那个操作台)。
用鼠标 按住不放,把刚才保存的 qwen_image.json 文件 从你电脑里直接拖拽 到那个 ComfyUI 界面里。
别管它啥格式,拖进去它自己就懂,屏幕上会自动跳出一堆彩色小方块连着线——这就是生成写实图的“生产线”。
换上 Lora 衣服(重点来了):
因为上面一步你已经下载了基础工作流(图纸),现在只需要再单独下载一个 Lora 模型文件(就是写实风格的“衣服”)。
去哪里下? 这得看你具体要啥风格的写实——比如“电影质感”“油画写实”还是“高清人像”?
一般都在模型分享网站(比如 CivitAI、LoRA 笑话站这些地方搜,搜的时候带上 “Lora” + “写实” 关键词)。
下完后:
把下载好的 Lora 文件(后缀通常是 .safetensors 或 .ckpt)也 按住鼠标左键拖 进 ComfyUI 界面里。
界面会自动识别,你再 找到工作流里专门挂“衣服”的节点(通常标着 “Load Lora” 或 “Lora Model”),把文件名填进去或者再拖一次。
填词开工:
现在,在 ComfyUI 界面上找到那个输入文字的地方(输入框),把 Qwen-Image 官方给的提示词(就是它要求你必须输入的指令文字)一字不差敲进去。
点生成按钮,等着出图吧!
记住啊:
第一步的 image_qwen_image.json 是通用图纸,必须先拖进去;
第二步的 Lora 模型是风格衣服,得单独下、单独挂;
两个文件都拖进去后,别急着删,它们在后台干活呢;
如果卡住报错,记下错哪行,去**大佬文章底部**吼一声,比自己琢磨快。
若你是跳过上面,而直接来到这里,你是想要 Lora 写实风格的,那么当你拖入工作流时,应当呈现如下图所示。
工作流中默认有一个提示词,直接生成它,先看看效果如何再说。
可灵、即梦、Qwen-Image对比
我这里是把提示词做了修改(中、英混语):主要意思是李白在黄鹤楼中叼着烟,在吟诗作赋。提示词如下:
"A warm, golden-lit ancient tower interior in Tang dynasty style, in
the late afternoon, with soft sunlight filtering through carved wooden
lattice windows. The atmosphere is poetic, cinematic, and slightly
hazy from curling smoke. The colors are rich, full of gold, crimson,
jade green, and deep ink-black tones. Elegant carved pillars with
dragon motifs, silk banners flowing gently. Li Bai sits by a red
sandalwood table, dressed in flowing white robes with light blue
edges, holding a long-stemmed pipe, exhaling fragrant smoke while
gazing at a scroll of poetry. In the background, ink paintings, bronze
incense burners with thin trails of smoke, stacks of bamboo slips, and
a pot of warm wine on a small tray. Calligraphy on hanging scrolls
includes:“黄楼赋” “将进酒” “月下独酌” “早发白帝城” “夜泊牛渚怀古” “庐山谣” “登金陵凤凰台” “行路难”
“静夜思"The scene glows with a warm yellow ambience, all lanterns lit,
and faint mist drifting near the floor.”
(1)可灵2.0 生成的效果
(2)即梦生成的效果:
(3)在Qwen-Image ComfyUI 采用 fp8 精度生成的效果:
说句掏心窝的:我拿着同一句提示词,先是用花钱的可灵、再是用即梦,结果俩宝贝都不给我面子——出来的图跟我心里那幅画面八竿子打不着。反倒是我顺手跑的 Qwen-Image FP8 精简版,挂上 ComfyUI,一幅图直接戳进心坎:画面够锐,路人脸上毛孔都看清;颜色一层叠一层,跟真景儿顶着;环境光给得大气又不失分寸,整体干净得不戴滤镜都行。这么香的结果,必须点个大大的赞!
资源消耗
ComfyUI官方实测数据为:
大家有条件的情况可以试着跑下BF16的模型,对比一下效果,评论区也可以分享下。
总结
折腾一圈下来,就一句话:蓝耘把难题全包圆了,Qwen-Image 负责把图做到极致。
想在蓝耘上用 ComfyUI——点两下、扫码登录、GPU 直接塞给你显存,再不用半夜蹲贴吧求算力;本地没卡也照跑,电费、驱动一键代付。
反过来,Qwen-Image 的本事一目了然:FP8 量化照样没糊脸,中文口令能出海报级文字,光影、质感、批量出图通通在线。
于是流程变成:蓝耘开好一路绿灯,Qwen-Image 在里头高速奔跑,十个创意一晚就能齐活,文案配图再也不是卡点活。