stable diffusion模型架构图
时间: 2025-04-18 10:49:35 浏览: 41
### Stable Diffusion 模型架构概述
Stable Diffusion 是一种基于潜在扩散模型(Latent Diffusion Model, LDM)的图像生成算法,能够在较低维度的空间内执行高效的去噪过程[^1]。该模型主要由三个核心组件构成:
#### 1. CLIP (Contrastive Language–Image Pre-training)
CLIP 负责理解输入文本提示并与生成的目标图像特征相匹配。这一部分利用预训练的语言-图像对比学习框架,在大规模互联网图片和对应描述的数据集上进行了优化。
```python
import clip
model, preprocess = clip.load("ViT-B/32") # 加载预训练好的CLIP模型
```
#### 2. UNet 网络结构
UNet 是一个编码器-解码器式的卷积神经网络,专门用于逐层去除加到初始纯噪声上的干扰项。此模块接收来自 VAE 的隐含表示作为条件,并通过多次迭代逐渐恢复清晰度更高的图像版本[^4]。
```python
from diffusers import UNet2DConditionModel
unet_model = UNet2DConditionModel.from_pretrained("CompVis/stable-diffusion-v1-4", subfolder="unet")
```
#### 3. VAE (Variational Autoencoder)
变分自编码器负责将高分辨率的真实世界照片映射至更易于管理的小尺寸向量空间——即所谓的“潜在空间”。反之亦然,当接收到经过净化后的低维信号时,则能重建出接近原样的视觉效果。
```python
from transformers import AutoFeatureExtractor, AutoModelForImageGeneration
feature_extractor = AutoFeatureExtractor.from_pretrained("runwayml/stable-diffusion-v1-5")
vae_model = AutoModelForImageGeneration.from_pretrained("runwayml/stable-diffusion-v1-5")
```

*图示展示了完整的 Stable Diffusion 工作流程*
上述三大部分共同协作完成从无序噪音到有序图形转变的过程,使得即使是在有限计算资源条件下也能实现逼真的艺术创作成果。
阅读全文
相关推荐


















