论文:《Adding Conditional Control to Text-to-Image Diffusion Models》
我们提出了ControlNet,这是一种神经网络架构,可以将空间条件控制添加到大型预训练的文本到图像扩散模型中。ControlNet 冻结了生产就绪的大型扩散模型,并重用其经过数十亿张图像预训练的深度和鲁棒编码层作为学习各种条件控制的强大骨干。神经网络结构与“零卷积”(零初始化卷积层)相连接,该卷积层从零开始逐步增加参数,并确保没有有害噪声会影响微调。
1.问题挑战
以端到端的方式学习大型文本到图像融合模型的条件控制具有挑战性。特定条件下的训练数据量可能远小于一般文本到图像训练的可用数据量。对数据有限的大型预训练模型进行直接fine-tune或继续训练可能会导致过拟合和灾难性遗忘[31,75]。研究人员已经证明,通过限制可训练参数的数量,可以缓解这种遗忘。
本文介绍了ControlNet,这是一种端到端的神经网络架构,用于学习大型预训练文本到图像扩散模型的条件控制(在我们的实现中为稳定扩散)。ControlNet通过freeze其参数并制作其编码层的可训练副本来保留大型模型的质量和功能。
- zero convolution零卷积层是一个1×1的卷积层,其权重和偏置都初始化为零。零卷积通过在初始训练步骤中消除随机噪声作为梯度来保护backbone。
- 稳定扩散本质上是一个U-Net[73],它有一个编码器、一个中间块和一个跳跃连接的解码器。编码器和解码器都包含12个块,完整模型包含25个块,包括中间块。
- 文本提示使用CLIP文本编码器[66],扩散时间步长使用位置编码的时间编码器进行编码。
在训练过程中,由于零卷积不会给网络增加噪声,因此模型应该始终能够预测高质量的图像。我们观察到,该模型不会逐渐学习控制条件,而是突然成功地跟随输入的调节图像;通常在不到10K的优化步骤中。如图4所示,我们