【论文笔记】Scalable Diffusion Models with State Space Backbone

原文链接:https://arxiv.org/abs/2402.05608

1. 引言

主干网络是扩散模型发展的关键方面,其中基于CNN的U-Net(下采样-跳跃连接-上采样)和基于Transformer的结构(使用自注意力替换采样块)是代表性的例子。

状态空间模型(SSM)在长序列建模方面有极大潜力。本文受Mamba启发,建立基于SSM的扩散模型,称为DiS。DiS将所有输入(时间、条件和有噪声的图像patch)视为离散token。DiS中的状态空间模型使其比CNN和Transformer有更优的放缩性,且有更低的计算开销。

2. 方法

2.1 准备知识

扩散模型:扩散模型逐步向数据加入噪声,然后将此过程反过来从噪声生成数据。噪声的加入过程称为前向过程,可表达为马尔科夫链。逆过程中,使用高斯模型近似真实逆转移,其中学习相当于对噪声的预测(即使用噪声预测网络,来最小化噪声预测目标)。

条件扩散模型会将条件(如类别、文本等,通常形式为索引或连续嵌入)引入噪声预测目标中。

具体公式见扩散模型(Diffusion Model)简介 - CSDN

状态空间主干:状态空间模型的传统定义是将 x ( t ) ∈ R N x(t)\in\mathbb R^N x(t)RN通过隐状态 h ( t ) ∈ R N h(t)\in\mathbb R^N h(t)RN映射为 y ( t ) ∈ R N y(t)\in\mathbb R^N y(t)RN的线性时不变系统:
h ′ ( t ) = A h ( t ) + B x ( t ) y ( t ) = C h ( t ) h'(t)=Ah(t)+Bx(t)\\y(t)=Ch(t) h(t)=Ah(t)+Bx(t)y(t)=Ch(t)

其中 A ∈ R N × N A\in\mathbb R^{N\times N} ARN×N为状态矩阵, B , C ∈ R N B,C\in\mathbb R^N B,CRN为输入和输出矩阵。真实世界的数据通常为离散形式,可将上式离散化为
h t = A ˉ h t − 1 + B ˉ x t y t = C h t h_t=\bar Ah_{t-1}+\bar Bx_t\\y_t=Ch_t ht=Aˉht1</

### 自回归模型与扩散模型在可扩展图像生成中的比较 自回归模型(Autoregressive Model, ARM)和扩散模型(Diffusion Model, DM)都是当前用于图像生成的强大工具,但在某些特定场景下,ARM表现出更优的性能。以下是关于两者对比的关键点: #### 性能差异 自回归模型的核心优势在于其高效的参数化设计和较低的计算复杂度。具体来说,在大规模数据集上训练时,ARM能够利用条件概率分布逐步构建高质量图像[^1]。相比之下,尽管扩散模型以其灵活性著称,但它们通常需要更多的推理步骤来实现相似质量的结果,这显著增加了运行时间成本。 #### 可扩展性和效率 对于可扩展图像生成任务而言,ARM展现出更高的效率特性。例如,在Llama系列研究中提到的技术表明,通过优化架构设计并引入先进的注意力机制,可以有效减少内存占用同时提升处理速度。此外,《视觉自回归建模》一文中进一步探讨了如何借助“下一尺度预测”的方法增强ARM的能力,使其更适合于高分辨率图片合成需求[^2]。 #### Llama 的应用场景 基于上述理论基础之上开发出来的Llama不仅限于自然语言处理领域,在计算机视觉方向也有广泛的应用前景。特别是在跨模态学习方面,它可以通过融合文本信息指导图像创作过程;或者反过来,依据给定图形素材推测可能对应的描述语句。这种双向映射关系极大地拓宽了AI系统的表达能力边界。 ```python import torch from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama") model = AutoModelForCausalLM.from_pretrained("meta-llama/Llama") input_text = "Generate an image of a cat." inputs = tokenizer(input_text, return_tensors="pt").to('cuda') outputs = model.generate(**inputs) print(tokenizer.decode(outputs[0], skip_special_tokens=True)) ``` 以上代码片段展示了如何使用预训练好的Llama模型来进行简单的图文转换实验。实际部署过程中还需要考虑更多细节调整以满足不同业务场景下的定制化要求。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

byzy

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值