文献笔记：2023-IJCAI-Diffusion Models for Non-autoregressive Text Generation: A Survey

文章探讨了NAR文本生成中的扩散模型，对比了自回归与非自回归模型，强调了NAR模型在效率与质量权衡上的优势。通过扩散模型的正向和反向过程，以及在文本生成任务中的应用，展示了如何利用预训练模型优化文本数据并实现并行生成。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 缩写含义

缩写	全称	中文含义
NAR	non-autoregressive	非自回归
AR	autoregressive	自回归
PLMs	pre-trained language models	预训练模型
UCG	UnConditional Generation
A2T	Attribute-To-Text
T2T	Text-To-Text

2 摘要

本文回顾了NAR文本生成扩散模型的最新进展。本文首先介绍了扩散模型和文本扩散模型的一般定义，然后讨论它们在 NAR 生成中的优点。本文进一步介绍了现有文本扩散工作中的两种主流扩散模型，并回顾了扩散过程的关键设计。此外，本文还讨论了PLMs在文本扩散模型中的应用，并介绍了文本数据的优化技术。

3 背景

通常，现有的文本生成方法大多采用AR方式，逐个生成输出tokens。这种方法能够捕获tokens之间的顺序依赖关系，但在生成长文本时会很耗时。因此，研究人员提出了NAR生成方法，并行生成所有tokens并大大减少推理延迟。然而，NAR 模型在文本生成准确性方面通常不如 AR 模型，因为并行生成不能很好地捕获tokens之间的依赖关系。为了缩小NAR模型和AR模型之间的性能差距，之前的工作已经为 NAR 方法提出了各种改进技术，例如知识蒸馏和大规模预训练等。最近，扩散模型（一类在图像生成方面表现出优越性的生成模型）被引入到 NAR 文本生成中。为了适应 NAR 文本生成任务，扩散模型迭代地改进以输入数据为条件的中间生成结果，这在生成高质量文本时可能更有能力处理复杂的控制条件。此外，通过设计适当的采样加速方法，扩散模型可以很好地平衡推理延迟和生成质量，从而提高生成能力。

表1 现有文本扩散模型的比较

3.1 扩散模型

正向过程 $q(x_{t}|x_{t-1})$ 使用随机噪声逐渐破坏数据样本 $x_{0}$ 。反向过程 $p_{\theta }(x_{t-1}|x_{t})$ 依赖于去噪网络 $f_{\theta }$ 逐步将随机噪声恢复到所需的数据样本中。给定数据样本 $x_0\sim q(x)$ ，正向过程通过从公式（1）采样生成潜在变量序列 $x_{1},...,x_{T}$ 。其中 $\beta _{t}\in (0,1)$ 是噪声比例。 $\beta _{t}$ 随着时间步长的增加而增加，并最终将 $x_{0}$ 破坏为随机噪声。

任意的中间变量 $x_{t}$ 可以以闭合的形式从 $x_{0}$ 中采样，如公式（2）所示。其中 $\alpha_{t}=1-\beta _{t}$ ， $\bar{\alpha }_{t}=\prod_{i=1}^{t}\alpha _{i}$ 。

反向过程是对后验 $q(x_{t-1}|x_{t})$ 的逼近，当 $\beta _{t}$ 足够小时可以看成是高斯分布。因此，反向过程也表述为高斯分布，如公式（3）所示。其中 $\mu _{\theta }(x_{t},t)$ 和 $\Sigma _{\theta }(x_{\theta },t)$ 由去噪网络 $f_{\theta }$ 参数化。

在推理过程中，反向过程从从高斯分布 $p(x_{T})=N(x_{T};0,\mathbf{I})$ 中采样噪声开始，然后通过 $p_{\theta }(x_{t-1}|x_{t})$ 对其进行迭代去噪，直到获得 $x_{0}$ 。扩散模型的学习目标源自输入 $x_{0}$ 的负对数似然的变分下界，如公式（4）所示。

最终的训练目标来自 $L_{t-1}$ 。在 $x_{0}$ 上有附加条件的情况下，使用贝叶斯定理，前向过程的后验 $q(x_{t-1}|x_{t},x_{0})$ 变得易处理，则简化目标 $L_{simple}$ 可以表示为公式（5）。其中 $\mu _{t}$ 是后验 $q(x_{t-1}|x_{t},x_{0})$ 的平均值。因此，去噪网络 $f_{\theta }$ 被训练来在给定 $x_{t}$ 和 $t$ 的情况下预测 $\mu _{t}$ 。通过不同的参数化策略，预测目标也可以是噪声或原始数据 $x_{0}$ 。

3.2 文本扩散模型

起始噪声可以是离散的（例如，[MASK] 标记）或连续的（例如，随机高斯噪声），对应于离散或连续扩散模型。去噪过程依赖于参数化去噪网络，该网络通常由 transformer 架构实现。在推理过程中，从随机噪声 $Y_{T}$ 开始，去噪网络在每一步逐步对其进行去噪，直到生成目标文本。在每个步骤中，遵循NAR生成方式，文本扩散模型并行预测所有潜在变量。上述过程如公式（6）所示，其中， $Y$ 是由tokens序列 $y_{i}$ 组成的目标文本， $\hat{Y}_{t+1}$ 表示在 $t+1$ 时间步长预测的潜在变量， $c$ 是输入条件， $t$ 表示时间步长。