目录
1 缩写含义
缩写 | 全称 | 中文含义 |
NAR | non-autoregressive | 非自回归 |
AR | autoregressive | 自回归 |
PLMs | pre-trained language models | 预训练模型 |
UCG | UnConditional Generation | |
A2T | Attribute-To-Text | |
T2T | Text-To-Text |
2 摘要
本文回顾了NAR文本生成扩散模型的最新进展。本文首先介绍了扩散模型和文本扩散模型的一般定义,然后讨论它们在 NAR 生成中的优点。本文进一步介绍了现有文本扩散工作中的两种主流扩散模型,并回顾了扩散过程的关键设计。此外,本文还讨论了PLMs在文本扩散模型中的应用,并介绍了文本数据的优化技术。
3 背景
通常,现有的文本生成方法大多采用AR方式,逐个生成输出tokens。这种方法能够捕获tokens之间的顺序依赖关系,但在生成长文本时会很耗时。因此,研究人员提出了NAR生成方法 ,并行生成所有tokens并大大减少推理延迟。然而,NAR 模型在文本生成准确性方面通常不如 AR 模型,因为并行生成不能很好地捕获tokens之间的依赖关系。为了缩小NAR模型和AR模型之间的性能差距,之前的工作已经为 NAR 方法提出了各种改进技术,例如知识蒸馏和大规模预训练 等。最近,扩散模型(一类在图像生成方面表现出优越性的生成模型)被引入到 NAR 文本生成中。为了适应 NAR 文本生成任务,扩散模型迭代地改进以输入数据为条件的中间生成结果,这在生成高质量文本时可能更有能力处理复杂的控制条件 。此外,通过设计适当的采样加速方法 ,扩散模型可以很好地平衡推理延迟和生成质量,从而提高生成能力。
表1 现有文本扩散模型的比较
3.1 扩散模型
正向过程 使用随机噪声逐渐破坏数据样本
。反向过程
依赖于去噪网络
逐步将随机噪声恢复到所需的数据样本中。给定数据样本
,正向过程通过从公式(1)采样生成潜在变量序列
。其中
是噪声比例。
随着时间步长的增加而增加,并最终将
破坏为随机噪声。
任意的中间变量 可以以闭合的形式从
中采样,如公式(2)所示。其中
,
。
反向过程是对后验 的逼近,当
足够小时可以看成是高斯分布。因此,反向过程也表述为高斯分布,如公式(3)所示。其中
和
由去噪网络
参数化。
在推理过程中,反向过程从从高斯分布 中采样噪声开始,然后通过
对其进行迭代去噪,直到获得
。扩散模型的学习目标源自输入
的负对数似然的变分下界,如公式(4)所示。
最终的训练目标来自 。在
上有附加条件的情况下,使用贝叶斯定理,前向过程的后验
变得易处理,则简化目标
可以表示为公式(5)。其中
是后验
的平均值。因此,去噪网络
被训练来在给定
和
的情况下预测
。通过不同的参数化策略,预测目标也可以是噪声或原始数据
。
3.2 文本扩散模型
起始噪声可以是离散的(例如,[MASK] 标记)或连续的(例如,随机高斯噪声),对应于离散或连续扩散模型。去噪过程依赖于参数化去噪网络,该网络通常由 transformer 架构实现 。在推理过程中,从随机噪声 开始,去噪网络在每一步逐步对其进行去噪,直到生成目标文本。在每个步骤中,遵循NAR生成方式,文本扩散模型并行预测所有潜在变量。上述过程如公式(6)所示,其中,
是由tokens序列
组成的目标文本,
表示在
时间步长预测的潜在变量,
是输入条件,
表示时间步长。
3.3 NAR 生成的文本扩散模型的优点
3.3.1 约束迭代优化
文本扩散模型提供了一个受约束的迭代细化过程,用于逐渐提高生成质量,其中每个步骤都被约束为用预定义的变化去噪随机噪声。这样,多步骤迭代过程将是稳定的,目的是逐步恢复目标文本。这种方式也适用于各种文本生成任务。
3.3.2 引入中间控制
对于文本扩散模型,现有工作已经广泛研究了通过添加额外的分类器或使用无分类器控制在中间结果中注入控制条件。正如理论和经验证明的那样,这些方法可以直接引导中间预测步骤生成满足控制要求的目标文本。
3.3.3 时间成本和质量之间的权衡
文本扩散模型可以采用推理加速技术,例如DDIM。经验结果表明,这些方法可以自由调整迭代步骤,只会略微影响生成质量,从而在成本和质量之间实现更好的权衡。
4 自定义文本扩散模型
连续噪声不能直接破坏离散tokens,因此需要对文本数据的典型扩散模型进行特定的调整。
图1 离散和连续文本扩散模型的插图
4.1 离散文本扩散模型
离散文本扩散模型的概述如图 1(a) 所示,其中,在离散文本扩散模型中,“[M]”代表 [MASK] 标记,在连续文本扩散模型中, 表示嵌入函数。
4.2 连续文本扩散模型
连续文本扩散模型的概述如图 1(b) 所示,其中离散tokens在连续扩散过程之前首先映射到嵌入。