stable diffusion 优化加速文生图效率

Qiming_v

已于 2024-07-27 13:44:29 修改

阅读量610

点赞数 4

CC 4.0 BY-SA版权

分类专栏： Diffusers 文章标签：深度学习 pytorch

于 2024-07-23 21:29:18 首次发布

本文链接：https://blog.csdn.net/zhilaizhiwang/article/details/140645848

参考自：Accelerate inference of text-to-image diffusion models

默认使用diffusers

1.bfloat16

使用 torch.bfloat16 或者torch.float16，降低数据精度能加快推理速度，并且对结果的影响也很小。
如果GPU的内存不足，也可以使用torch.bfloat16 或者torch.float16，能降低内存占用。

pipe = StableDiffusionXLPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-base-1.0", torch_dtype=torch.bfloat16
).to("cuda")

2.SDPA

scaled_dot_product_attention，在diffusers中已经默认使用。

scores = torch.matmul(Q, K.transpose(-1, -2)) / np.sqrt(d_k)
将scores除以d_k的平方根（np.sqrt(d_k)），这就是所谓的缩放，已经是transformers的默认操作了。

3.torch.compile

需要PyTorch 2 以上版本。第一次编译会很慢，编译好了推理会提速很多。

from diffusers import StableDiffusionXLPipeline
import torch

torch._inductor.config.conv_1x1_as_mm = True
torch._inductor.config.coordinate_descent_tuning = True
torch._inductor.config.epilogue_fusion = False
torch._inductor

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Qiming_v

关注关注

4
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Stable Diffusion性能优化：加速生成速度的10个有效方法

AIGC应用创新大全的博客

06-20

994

本文聚焦解决Stable Diffusion（以下简称SD）生成速度慢的核心痛点，覆盖从基础参数调优到高级技术优化的全链路方法。无论是个人创作者还是企业级批量生成场景，均可从中找到适用方案。本文先通过“冲咖啡”类比理解SD核心原理，再拆解10个具体优化方法（含代码示例与实测数据），最后结合实战场景给出综合建议。扩散步数：擦除噪声的次数，越少越快；潜在空间分辨率：计算的“小杯子”，越小越快；XFormers：更高效的“分块擦除”方法；混合精度：用“简化计算器”加速计算。

chinese-stable-diffusion中文场景文生图prompt测评集合

liguandong

11-05

1838

DALL-E 3 是 OpenAI 的又一大作，相比于此前的 DALL-E 3 是一个重磅提升。借助于 Transformer 模型优秀的自然语言能力，它可以精准地理解你的设计需求，并近乎如实地反映在画面上。GitHub - leeguandong/Awesome-Chinese-Stable-Diffusion: 中文文生图stable diffsion模型集合。腾讯混元的文生图在人像真实感、场景真实感上有比较明显的优势，同时，在中国风景、动漫游戏等场景等生成上有较好的表现。

参与评论您还未登录，请先登录后发表或查看评论

提高Stable Diffusion渲染速度的技巧，来学习一下

XDEMO_的博客

12-20

2264

提高Stable Diffusion渲染速度的技巧，来学习一下

Stable Diffusion——使用TensorRT GPU加速提升Stable Diffusion出图速度

知来者逆的博客

02-08

1万+

NVIDIA 已发布了 TensorRT 稳定扩散工作流的演示，为开发者提供了一个参考实例，说明如何准备扩散模型并使用 TensorRT 加速这些模型。如果您有兴趣增强扩散工作流并为您的应用带来快速推理，这将是您的起点。在此基础上，TensorRT 工作流应用于 Stable Diffusion 开发者常用的项目。在 Stable Diffusion Web UI 中实施 TensorRT 进一步普及了生成式 AI，并提供了广泛而轻松的访问。

1步高清出图，字节开源Stable Diffusion加速模型 Hyper-SD

python03012的博客

05-17

3008

Hyper-SD 由字节跳动开源，使用了神经网络的模型蒸馏技术从 SDXL Base 1.0 和 Stable-Diffusion v1-5 模型中提取出了高质量的图像特征信息。具体来说，字节团队提出了一种新颖的框架，协同整合了ODE轨迹保持和ODE轨迹重构的优势，既保证了新模型的性能，又提升提升了新模型的效率。首先，它引入了轨迹分段一致性蒸馏，在预先定义的时间步长段内逐步进行一致性蒸馏，从而从更高层次上促进了原始ODE轨迹的保留。

【Stable Diffusion/NovelAI Diffusion的AMD GPU加速推理探索】

weixin_44029053的博客

11-01

1万+

这边我们还是MS大发好，用MS的DirectML推理框架推理

提高Stable Diffusion十倍计算速度以及解决内存崩溃问题

热门推荐

阿刘

02-22

3万+

在启动Stable Diffusion时一直报Torch not compiled with CUDA enabled警告，一开始没在意本着能用就行的态度凑活用，每个图都耗时十多秒，然后本着好奇Torch not compiled with CUDA enabled这个警告去搜索解决方案，都没说这个警告解决了有什么用，并且网上资料东拼西凑根本不能解决问题，本着专研解决问题的心态花一晚上解决这个警告，并将计算速度提高了十倍基本4G的模型2秒能出图。本地环境：windows11 13900k

stable diffusion文生图代码解读

Qiming的博客

07-24

1398

stable diffusion 文生图代码解读

[Stable Diffusion入门]文生图教科书级讲解

细节控-AI先行者的博客

12-09

1064

Stable Diffusion的文生图功能是一个强大而灵活的工具，不仅可以提供直观的文本数据可视化，还具有多样化的应用潜力。其先进的分析功能和简便的操作方式使其成为众多专业人士和业余爱好者的理想选择。

可能是最强文生图工具：Stable Diffusion 3 超详细测试

2401_84250575的博客

05-05

1558

未来，AIGC技术将继续得到提高，同时也将与人工智能技术紧密结合，在更多的领域得到广泛应用。一个巨大的种植基地，蓝天，一个巨大的果园，一个小的绿色柑橘，极美的风景照片，风景摄影作品，广角拍摄，逼真的视觉效果，逼真的风景照片，超现实主义，丰富明亮的光源，美丽的光影，柔和的光源，低角度摄影，鸟瞰，高质量，高细节，8k。美丽的魔女，黑色长发，穿着黑色高领套头衫和黑色瑜伽裤，在一个神奇的智能企鹅文明祭坛旁摆姿势，雕像，动画艺术风格，魔鬼核心，超现实插画，32k uhd，龙的艺术，燃烧的哥特式背景，超现实的人物。

(含代码)利用NVIDIA Triton加速Stable Diffusion XL推理速度

专注于人工智能领域的小何尚

03-13

2634

在 NVIDIA AI 推理平台上部署 SDXL 可为企业提供可扩展、可靠且经济高效的解决方案。TensorRT 和 Triton 推理服务器都可以释放性能并简化生产就绪部署，并作为的一部分包含在 Google Cloud Marketplace 上。AI Enterprise 提供 NVIDIA 支持服务以及支持 AI 推理的开源容器和框架的企业级稳定性、安全性和可管理性。企业开发人员还可以选择使用（视觉内容定制生成 AI 的代工厂）来训练、微调、优化和推断扩散基础模型。

让Stable Diffusion一秒出图！清华硕士加速神器爆火，已有公司接入

量子位

11-17

253

克雷西发自凹非寺量子位 | 公众号 QbitAIAI图像生成，已经进入了秒速级别，只要4步推理就能完成绘制，最快更是能在1秒之内完成。现在，清华大学联合HuggingFace的研究人员，推出了全新的绘图模型加速模块。作者给出的体验版当中，点击生成按钮后，模型只用了几秒钟就绘制出了4张清晰的图像。这个加速模块叫做LCM-LoRA，发布后不久就斩获了2k+次GitHub星标。它不仅加速能力强、泛化...

【stable diffusion模型】47个出图效率倍增的 Stable Diffusion 常用模型推荐！_stable diffusion 出图速度排行

最新发布

2401_84760322的博客

03-31

654

1、Windows 安装：最低要求为 Win10 / 64 位系统，内存建议 16GB，显卡建议 NVIDIA 8GB 显存起，硬盘建议 30GB 起。

推理速度比Stable Diffusion快2倍，生成、修复图像谷歌一个模型搞定，实现新SOTA...

weixin_40920183的博客

01-05

217

机器之心报道机器之心编辑部图像生成领域越来越卷了！文本到图像生成是 2022 年最火的 AIGC 方向之一，被《science》评选为 2022 年度十大科学突破。最近，谷歌的一篇文本到图像生成新论文《Muse: Text-To-Image Generation via Masked Generative Transformers》又引起高度关注。论文地址：https://arxiv.org/pd...

扩散模型实战（十一）：剖析Stable Diffusion Pipeline各个组件

wshzd的博客

11-21

2481

到目前为止，我们的图片仍然是从完全随机的隐变量开始生成的，并且都使用了完整的扩展模型采样循环。在扩散模型中，UNet的作用是接收“带噪”的输入并预测噪声，以实现“去噪”，网络结构如下图所示，与前面的示例不同，此次输入的并非是原始图片，而是图片的隐式表示，另外还有文本Prompt描述也作为UNet的输入。噪声的数量和“去噪”的步数决定了Img2Img生成的效果，添加少量噪声只会带来微小的变化，添加大量噪声并执行完整的“去噪”过程，可能得到与原始图片完全不同，近在整体结构上相似的图片。

Diffuser库Stable_diffusion pipeline代码逐行解析（喂饭级别）

weixin_44733295的博客

01-30

4451

Diffuser库Stable diffusion pipeline代码全解读

diffusers StableDiffusionPipeline 的默认配置

子燕若水的博客

02-08

1762

【代码】diffusers StableDiffusionPipeline 的默认配置。

Stable Diffusion with Diffusers 学习笔记: 原理+完整pipeline代码

Joselynzhao

09-08

7365

这是standard diffusion和Latent diffusion模型之间的关键区别:在Latent diffusion中，模型被训练成生成图像的latent(压缩)表示。编码器将图像表示压缩为较低分辨率的图像表示，解码器将较低分辨率的图像表示解码回假定噪声较小的原始较高分辨率的图像表示。在这篇文章中，我们想展示如何使用Stable Diffusion with the 🧨 Diffusers library,，解释模型是如何工作的，最后深入探讨扩散器是如何允许自定义图像生成pipeline的。

stable diffusion api 文生图

01-24

### 使用 Stable Diffusion API 实现文本到图像生成功能为了实现从文本生成图像的功能，`stable-diffusion-api-server` 提供了一个本地API服务器接口来访问Stable Diffusion模型[^1]。该服务允许开发者通过HTTP请求提交文本描述，并接收由模型生成的对应图像作为响应。下面是一个简单的Python脚本示例，展示了如何调用此API来进行文本转图像的操作： ```python import requests from PIL import Image from io import BytesIO def generate_image_from_text(prompt, api_url='http://localhost:8080'): """ 发送POST请求给稳定扩散API以创建新图象参数: prompt (str): 文字提示语句. api_url (str): API端点URL，默认为'http://localhost:8080'. 返回: img (PIL.Image.Image): 生成的图片对象. """ response = requests.post( f'{api_url}/sdapi/v1/txt2img', json={ "prompt": prompt, "steps": 50, "width": 768, "height": 768, "n_iter": 1, "batch_size": 1 } ) if response.status_code == 200: image_data = BytesIO(response.content) img = Image.open(image_data) return img else: raise Exception(f'Error generating image: {response.text}') # 测试函数 if __name__ == '__main__': try: generated_img = generate_image_from_text('a beautiful sunset over mountains') generated_img.show() except Exception as e: print(e) ``` 这段代码定义了一个名为 `generate_image_from_text()` 的函数，它可以接受一段文字描述作为参数，并向指定的API发送一个JSON格式的数据包。如果一切顺利的话，将会返回一张根据所给定的文字描述而合成的新图片。需要注意的是，实际部署环境中可能需要调整API URL以及配置其他必要的参数（比如认证令牌）。此外，对于更复杂的场景，还可以探索更多高级选项，例如设置不同的采样步数(`steps`)、宽度和高度等属性来自定义最终输出的质量与风格[^3]。