Arbitrary-steps Image Super-resolution via Diffusion Inversion——图像超分辨率技术:基于扩散反演的任意步长方法

这篇文章提出了一种基于扩散反演的新型图像超分辨率(SR)技术,称为InvSR。以下是主要内容总结:

  1. 核心思想

    • 利用预训练的大规模扩散模型中的图像先验知识,通过扩散反演技术实现图像超分辨率。

    • 设计了一个部分噪声预测(PnP)策略,构建扩散模型的中间状态作为采样的起点,从而减少采样步数并提高效率。

  2. 方法创新

    • 引入了一个噪声预测网络,用于从低分辨率(LR)图像中估计噪声图,从而初始化扩散模型的采样过程。

    • 支持任意步长的采样(从一步到五步),用户可以根据图像退化的类型和程度灵活调整采样步数。

  3. 优势

    • 高效性:通过减少采样步数,显著提高了推理速度。

    • 灵活性:能够根据不同的退化类型调整采样步数,适应多种现实场景。

    • 高性能:即使在一到五步的采样范围内,InvSR也能展现出与现有最先进方法相当或更优的性能。

  4. 实验结果

    • 在合成和真实世界的数据集上进行了广泛实验,验证了InvSR在图像超分辨率任务中的有效性。

    • 与现有的基于GAN和扩散模型的方法相比,InvSR在保持高保真度的同时,显著提高了效率。

  5. 主要贡献

    • 提出了一种新的基于扩散反演的SR方法,充分利用了预训练扩散模型的先验知识。

    • 提供了一种灵活且高效的采样机制,支持任意步长的采样,适应不同的退化条件。

InvSR通过结合扩散反演和噪声预测技术,提供了一种高效、灵活且高性能的图像超分辨率解决方案。这里是自己的论文阅读记录,感兴趣的话可以参考一下,如果需要阅读原文的话可以看这里,如下所示:

官方项目地址在这里,如下所示:

摘要

本研究提出了一种基于扩散反演的新型图像超分辨率(SR)技术,旨在利用大规模预训练扩散模型中丰富的图像先验知识来提升SR性能。我们设计了一种部分噪声预测策略,构建扩散模型的中间状态作为采样的起点。该方法的核心是一个深度噪声预测器,用于估计前向扩散过程中的最优噪声图。一旦训练完成,该噪声预测器可以用于在扩散轨迹上部分初始化采样过程,生成所需的高分辨率图像。与现有方法相比,我们的方法提供了一种灵活且高效的采样机制,支持从一步到五步的任意采样步长。即使仅使用单步采样,我们的方法也能展现出与现有最先进方法相当或更优的性能。

图1. 我们提出的方法与最近最先进的基于扩散的方法在两个真实世界示例上的定性比较,采样步数以“方法名称-步数”的格式标注。我们在第一个示例的子标题中用红色标注了运行时间(以毫秒为单位),这是在A100 GPU上进行的×4(128 → 512)超分辨率任务测试。我们的方法提供了一种高效且灵活的采样机制,允许用户根据退化类型或特定需求自由调整采样步数。在第一个示例中,主要退化是模糊,多步采样比单步采样更可取,因为它逐步恢复了更精细的细节。相反,在第二个示例中,图像存在严重的噪声,单步采样足以达到满意的结果,而额外的步骤可能会放大噪声并引入不必要的伪影。(放大以获得最佳效果)

1 引言

图像超分辨率(SR)是计算机视觉中的一个基础但具有挑战性的问题,旨在从给定的低分辨率(LR)观测图像中恢复出高分辨率(HR)图像。SR的主要挑战在于现实场景中退化模型的复杂性和未知性,使得SR成为一个不适定问题。近年来,扩散模型(特别是大规模文本到图像生成模型)在生成高质量图像方面取得了显著成功。得益于这些文本到图像生成模型的强大生成能力,最近的研究开始将其作为可靠的先验知识来缓解SR的不适定性。本文沿袭了这一研究方向,进一步探索了扩散先验在SR中的潜力。

现有的基于扩散先验的SR方法通常通过优化或微调扩散网络的中间特征,使其更好地与给定的LR观测图像对齐。与这些方法不同,我们提出了一种基于扩散反演的新技术,旨在利用扩散先验知识。与现有方法不同,我们的方法试图找到扩散模型的最优噪声图作为输入,而不对扩散网络本身进行任何修改,从而最大化扩散先验的效用。

尽管生成对抗网络(GAN)的反演在多种应用中取得了显著进展,但将这些原理扩展到扩散模型仍然面临独特的挑战,尤其是对于要求高保真度的SR任务。扩散模型的多步随机采样过程使得反演变得复杂。直接优化每个扩散步骤的噪声图既昂贵又复杂。此外,迭代推理机制会在每一步累积预测误差和随机性,从而显著影响保真度。因此,现有的扩散反演方法主要集中在保真度要求较低的任务上,如图像编辑。

在本研究中,我们重新设计了扩散反演以应对更具挑战性的SR任务。为了实现SR中的扩散反演,我们引入了一个深度神经网络,称为噪声预测器,用于从给定的LR图像中估计噪声图。此外,我们还设计了一种部分噪声预测(PnP)策略,用于构建扩散模型的中间状态,作为采样的起点。该方法的核心思想是根据扩散模型的前向过程向LR图像添加噪声噪声预测器预测添加的噪声,而不是随机采样。这一方法的动机如下:

  • 合理性:LR和HR图像仅在高频细节上有所不同。通过添加适当的噪声,LR图像将变得与其HR对应图像难以区分。因此,噪声化的LR图像可以作为反演轨迹的代理。

  • 复杂性:PnP策略通过将预测限制在起始步骤,简化了反演任务,从而降低了反演过程的整体复杂性。

  • 灵活性:噪声预测器可以训练为多个预定义的起始步骤预测噪声图。在推理过程中,我们可以自由选择起始步骤,并使用现有的采样算法进行任意步长的采样,从而提供控制采样过程的灵活性。

  • 保真度:训练中的起始步骤经过精心选择,具有较高的信噪比(SNR),确保SR任务的保真度。在实践中,我们强制SNR阈值大于1.44,对应于Stable Diffusion中的时间步250。

  • 效率:由于采样过程从时间步250之前开始(SNR大于1.44),PnP策略结合现有的加速采样算法,有效地将采样步数减少到五步以内,解决了基于扩散的SR方法常见的低效问题。

与大多数依赖固定采样步长的现有扩散方法不同,我们的灵活采样机制为处理不同程度的退化提供了通用解决方案。在SR中,通常会遇到不同类型和强度的退化。直观上,采样步数应根据具体的退化条件进行调整。例如,如图1所示,在第一种情况下,多步采样比单步采样更可取,因为它有效地减少了模糊并恢复了更精细的细节。相比之下,对于第二种情况,单步采样已经能够达到满意的结果,而额外的步骤可能会放大噪声并引入不必要的伪影。我们的方法允许用户根据不同的退化类型调整采样步数。

本研究的主要贡献有两点:首先,我们提出了一种基于扩散反演的新型SR方法,通过集成辅助噪声预测器有效利用了扩散先验,同时保持整个扩散主干网络不变。其次,我们的方法引入了一种灵活且高效的采样机制,支持从一步到五步的任意采样步长。值得注意的是,即使将步数减少到一步,我们的方法仍然能够展现出与现有最先进的单步扩散方法相当或更优的性能。


2 相关工作

基于扩散先验的SR方法:现有的基于扩散先验的SR方法大致可以分为两类。第一类方法通过预定义或估计的退化模型重新优化扩散模型的中间状态,以确保与给定的LR图像一致。代表性工作包括DDRM、CCDF和DDNM等。尽管这些方法有效,但它们受限于计算复杂性,因为需要在每个扩散步骤中解决优化问题,导致推理速度较慢。此外,它们通常依赖于手动定义的退化模型,因此无法处理现实场景中的盲SR问题。第二类方法直接对预训练的大规模文本到图像生成模型进行微调,以适应SR任务。StableSR率先提出了这一范式,通过引入空间特征变换层来引导文本到图像生成模型生成HR输出。后续工作提出了各种微调策略,以利用扩散先验,包括DiffBIR、SeeSR、PASD和S3Diff等。这些方法取得了令人印象深刻的性能,验证了扩散先验在SR中的有效性。

扩散反演:扩散反演的重点是确定最优噪声图集,当这些噪声图通过扩散模型处理时,能够重建给定的图像。DDIM首次通过推广扩散模型到一类非马尔可夫过程来解决这一问题,从而建立了确定性生成过程。后续方法,如Rinon等人和Mokady等人的工作,提出了优化文本嵌入以更好地与所需的文本指导对齐。最近的研究进一步优化了文本和视觉提示的优化策略,以及中间噪声图的优化策略,显著提高了反演质量。尽管取得了这些进展,现有方法主要集中在图像编辑上,无法满足SR的高保真度要求。

在本研究中,我们针对SR任务定制了扩散反演技术。尽管Chihaoui等人最近探索了扩散反演在图像恢复中的应用,但他们的方法依赖于在每个反演步骤中解决优化问题,显著限制了推理效率。相比之下,我们的方法引入了一个噪声预测模块,一旦训练完成,便可以在推理过程中实现高效反演,而无需迭代优化。这显著提高了扩散反演在SR任务中的效率和实用性。


3 方法论

在本节中,我们介绍了所提出的基于扩散反演的SR技术。为了与扩散模型中的符号保持一致,我们将LR图像表示为y0​,相应的HR图像表示为x0​。

3.1 动机

扩散模型最初是作为一种受非平衡热力学启发的概率生成模型提出的。随后,Song等人将其重新表述为随机微分方程(SDE)框架。在本文中,我们提出了一种适用于概率和SDE扩散公式的通用扩散反演技术。为了便于理解,我们在整个介绍中使用Denoising Diffusion Probabilistic Model(DDPM)的概率框架。

DDPM框架实际上是一个长度为T的马尔可夫链,其前向过程由高斯转移核描述:

3.2 扩散反演

3.2.1 问题简化

训练这个噪声预测器本身具有挑战性。噪声图集M由T个噪声图组成(在大多数当前的扩散模型中通常为1000个),对应于扩散过程的每一步。自然地,使用单个紧凑网络同时估计如此大量的噪声图是非平凡的。更糟糕的是,扩散模型的迭代采样范式会逐渐累积预测误差,这可能会对最终的SR性能产生不利影响。

3.2.2 反演轨迹

3.2.3 模型训练

 图2. 我们提出的方法的推理流程,其中{τi}表示反演时间步。注意,预测的噪声图zτS与LR图像表现出明显的相关性,表明其统计分布具有非零均值的特性。

4 实验

在本节中,我们首先对所提出的方法进行了分析,然后在一个人工合成和两个真实世界的数据集上进行了广泛的实验,以评估其性能。我们的研究主要集中在×4 SR任务上,遵循之前的工作。为了简化表述,我们将我们的方法称为_InvSR_,代表基于扩散反演的超分辨率。

4.1 实验设置

训练细节:遵循最近工作的设置,我们在LSDIR数据集和FFHQ数据集的20k张人脸图像子集上训练噪声预测器。在每次迭代中,我们从源图像中随机裁剪一个分辨率为512×512的图像块,并使用RealESRGAN的管道合成LR图像。文本提示在训练和测试阶段都固定为一般描述。为了优化网络参数,我们采用了Adam优化器,使用PyTorch的默认设置。训练过程超过100k次迭代,批量大小为64,固定学习率为5e−5。损失函数中的超参数λl和λg​分别设置为2.0和0.1。噪声预测器的架构基于VQGAN的编码器,包含两个下采样块,每个块配备一个自注意力层。

在训练阶段,我们每次迭代从S={250,200,150,100}中随机选择一个起始时间步来训练噪声预测器。在推理过程中,我们使用五个反演步骤,即M={250,200,150,100,50}。

测试数据集:为了评估_InvSR_的性能,我们构建了一个名为_ImageNet-Test_的人工合成数据集,包含来自ImageNet验证集的3000张图像。LR和HR图像的分辨率分别为128×128和512×512,使用ResShift的退化设置合成。值得注意的是,我们从ImageNet中选择HR图像,而不是SR中常用的数据集(如Set5、Set14和Urban100),主要是因为这些数据集仅包含非常少的源图像,无法全面评估各种方法在复杂退化类型下的表现。

我们进一步在两个真实世界的数据集上进行了实验,以验证_InvSR_的有效性。第一个数据集是_RealSR_,包含100张由Canon 5D3和Nikon D810相机拍摄的真实图像。第二个数据集_RealSet80_包含80张LR图像,广泛用于现有文献中。

对比方法:我们评估了_InvSR_与九种最新方法的有效性,包括两种基于GAN的方法(BSRGAN和RealESRGAN)以及七种基于扩散的方法(LDM、StableSR、DiffBIR、SeeSR、ResShift、SinSR和OSEDiff)。对于LDM、StableSR、DiffBIR和SeeSR,我们使用50个采样步长进行公平比较。对于ResShift、SinSR和OSEDiff,我们遵循其官方指南建议的采样步长。

评估指标:我们使用七个指标评估各种方法的性能,包括三个参考指标(PSNR、SSIM和LPIPS)以及四个非参考指标(NIQE、PI、MUSIQ和CLIPIQA)。对于_ImageNet-Test_和_RealSR_数据集的评估,我们采用了所有七个指标以确保全面评估。对于_RealSet80_数据集,由于无法访问真实图像,仅使用了非参考指标。值得注意的是,PSNR和SSIM在YCbCr空间的亮度(Y)通道中计算,而其他指标直接在标准RGB(sRGB)空间中计算。

4.2 模型分析

任意步长采样:最近的高效基于扩散的SR方法(如ResShift、SinSR和OSEDiff)将采样过程限制在预定义的步长,与其训练配置一致。相比之下,所提出的_InvSR_支持任意步长的采样,显著增强了灵活性,并适应不同的退化类型,如图1和图6所示。

我们进一步提供了_InvSR_在一、三和五步采样下的全面比较,总结在表1中。从这些结果中可以得出三个关键观察:i)在固定采样步长(例如一步或三步)的情况下,改变起始时间步可以在保真度(通过参考指标衡量)和真实感(通过非参考指标衡量)之间进行权衡。具体来说,使用较大的起始时间步有利于提高真实感,但会牺牲保真度。ii)正如预期的那样,参考指标随着采样步数的增加而恶化,这是由于引入了额外的随机性。iii)有趣的是,非参考指标在使用更多采样步数时也表现出下降。这主要是因为大多数测试图像包含一些噪声,如果使用多个采样步数,可能会导致不希望的伪影,从而降低整体图像质量。然而,在涉及严重模糊的情况下,使用更多采样步数可以有效地恢复复杂的细粒度结构,如图1和图6中的第一个示例所示。

初始噪声预测:图3展示了我们的方法在初始时间步预测的噪声图,显示出与图像内容的强相关性。这一可视化与第3.2.3节中的理论分析一致,实证验证了我们的噪声预测器能够有效地找到与LR相关的噪声图,以促进SR任务。

4.3 与现有技术的比较

考虑到最近的研究主要集中在开发一步扩散方法,我们因此在一步配置下评估_InvSR_与这些方法的比较,以确保公平。

人工合成数据集:表2报告了各种方法在_ImageNet-Test_数据集上的全面评估,涵盖了七个定量指标,补充材料中的图8提供了额外的定性比较。值得注意的是,与最近的一步方法OSEDiff相比,_InvSR_在所有七个指标上均表现出明显的优势。此外,即使与使用50个采样步长的多步方法(如StableSR和DiffBIR)相比,_InvSR_在失真导向的指标(包括PSNR和SSIM)上仍然表现出相当的性能,同时在感知导向的指标(如LPIPS、NIQE、PI和MUSIQ)上优于这些方法。这些结果表明,_InvSR_有效地平衡了性能和效率,推动了基于扩散的SR方法的发展。此外,_InvSR_保持了适中的模型大小,约3400万个可学习参数,进一步增强了其在现实世界应用中的实用性。

真实世界数据集:为了评估真实世界数据集,我们主要关注非参考指标。表2和表3详细比较了_InvSR_与最近的最新技术在_RealSR_和_RealSet80_数据集上的表现。可以很容易地观察到,_InvSR_在大多数非参考指标上优于最近的一步方法,并在与现有多步方法相比时取得了第二好的结果。为了进一步证实这些结论,我们在图4中展示了两个真实世界示例的视觉比较,更多示例可以在补充材料的图9中找到。在第一个示例中,LR图像包含明显的压缩噪声,_InvSR_成功去除了这些伪影并生成了清晰的结果,而其他方法则难以消除这些伪影。在第二个示例中,图像因明显的模糊而退化,_InvSR_生成了更清晰的图像结构,如墙上的瓷砖边缘。这些定量和定性评估突显了_InvSR_在解决真实世界SR任务中的巨大潜力。


5 结论

我们提出了_InvSR_,一种基于扩散反演的新型SR方法。我们的方法引入了一个噪声预测网络,旨在估计最优噪声图,从而构建预训练扩散模型的中间状态作为采样的起点。这一设计在两个方面具有吸引力:首先,_InvSR_能够充分利用预训练扩散模型中封装的知识,从而促进SR性能。其次,_InvSR_提供了一种灵活的采样策略,能够通过结合时间依赖的噪声预测器架构从扩散模型的各种中间状态开始采样。这种灵活性允许用户根据退化类型或特定需求自由调整采样步数。即使将采样步数减少到一步,_InvSR_仍然展现出显著的优势,超越了最近的一步扩散方法,表明其有效性和效率。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Together_CZ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值