【图像增强】论文精读:Efficient Diffusion as Low Light Enhancer(ReDDiT)

请先看【专栏介绍文章】:


前言

论文题目:Efficient Diffusion as Low Light Enhancer —— 高效扩散作为低光增强器

论文地址:Efficient Diffusion as Low Light Enhancer

论文源码:https://github.com/lgz-0713/ReDDiT

CVPR 2025



Abstract

迭代采样过程的计算负担仍然是基于扩散的微光图像增强(LLIE)的主要挑战。当前的加速方法,无论是基于训练还是无训练,通常会导致性能显着下降,突出了性能和效率之间的权衡。在本文中,我们确定了导致性能下降的两个主要因素:拟合错误和推理差距。我们的关键见解是,可以通过线性插值不正确的评分函数来减轻拟合误差,而通过将高斯流转移到反射感知残差空间来减少推理差距。基于上述见解,我们设计了反射率感知轨迹细化(RATR)模块,这是一个简单而有效的模块,利用图像的反射率分量来细化教师轨迹。在此基础上,我们引入了蒸馏轨迹(ReDDiT)的反射感知扩散,这是一种为LLIE量身定制的高效灵活的蒸馏框架。我们的框架实现了与以前基于扩散的方法相当的性能,只需 2 步即可具有冗余步骤,同时以 8 或 4 步建立新的最先进的 (SOTA) 结果。对 10 个基准数据集的综合实验评估验证了我们的方法的有效性,始终优于现有的 SOTA 方法。

摘要总览:

1. Introduction

微光图像增强(LLIE)旨在提高弱光条件下捕获的图像的可见性和对比度,同时保持看起来自然的细节,这对各种下游应用至关重要。扩散模型[9,22]在这一领域取得了显著的成功,证明了生成逼真的正常光图像的显著进展[10,40,41]。以前的基于扩散的LLIE方法[10,40,41]主要关注如何在扩散框架。Diff-Retinex [40] 将 Retinex 分解应用于低光图像,并将这些分量调节到扩散模型中。PyDiff [48] 利用金字塔低光图像作为条件,并应用 DDIM [26] 来加速采样阶段。在WCDM[11]中,扩散模型在小波变换空间中运行,恢复微光图像的高频部分。GSAD[10]提出了一种全局结构正则化来增强结构信息学习,为推理阶段实现更小的噪声调度。

然而,扩散模型在LLIE中的更广泛应用的主要挑战是它们的迭代去噪机制。例如,DDPM[9]需要多个去噪步骤,例如1000步,将高斯噪声反转到干净的图像中。计算开销与LLIE的需求相冲突,特别是在移动电话和监控摄像头等边缘设备的计算摄影应用中。

受扩散模型训练感知加速方法[25,27]的启发,我们研究了提取基于多步扩散的LLIE模型以提高效率。一个关键的观察结果是,即使使用先进的加速方法(例如,一致性正则化[27]),性能下降是不可避免的。这就引出了这个问题: 是否有可能提取一个超越原始扩散模型的学生扩散模型。如果是这样,即使性能随着采样步骤的增加而下降,我们仍然可以取得与多步教师模型相当的结果。

为了解决这个问题,我们对扩散模型加速技术进行了全面分析。通过理论分析,我们确定了导致性能下降的两个主要因素:(1)拟合误差。深度学习模型和目标拟合数据之间不可避免的错误。这将导致蒸馏过程中额外的不希望的术语和不匹配。(2) 推理差距。它是专门针对扩散模型的训练目标和采样策略之间的差距。它是由通用扩散模型引起的,该模型通常在高斯流上进行训练和操作以生成多样性,而LLIE 需要更多的确定性。

我们的关键见解是通过对教师模型的得分函数应用线性外推来细化教师轨迹,从而减轻拟合误差的不利影响。同时,将采样轨迹转移到确定性空间解决了采样间隔,如图1所示。该方法的详细理论分析见第3节。
在这里插入图片描述

基于上述原则,我们设计了反射感知轨迹细化(RATR)模块,这是一个简单而有效的模块,用于细化LLIE任务的教师轨迹。在调整和细化扩散轨迹之前,它将图像的反射率分量合并为确定性分量。接下来,我们介绍了具有蒸馏轨迹 (ReDDiT) 的反射感知扩散,这是一种为 LLIE 量身定制的高效且灵活的蒸馏框架。该框架在改进的教师和学生模型之间进行轨迹匹配蒸馏,产生了一个两步扩散模型,其性能与以前的 10 步基于扩散的方法相当,以及实现新的 SOTA 结果的 4 和 8 步扩散模型。我们的贡献总结如下:
(1)我们从理论上分析了导致性能下降的因素,并提出了有针对性的改进:评分函数的线性外推以减轻由于拟合误差而导致的性能损失,残差移位作为采样间隔的解决方案。 (2) 基于这两个设计原则,我们提出了一种新的蒸馏方案ReDDiT,提高了LLIE生成扩散模型的效率。值得注意的是,ReDDiT 只需 2 步即可获得高质量的图像恢复,为该领域的高效基于扩散的模型建立了一个新的基准。
(3) 在 10 个基准数据集上进行的大量实验验证了 ReDDiT 始终实现了 SOTA 结果,展示了它在质量和效率方面的优越性,即使步数最少。

2. Related Work

微光图像增强。增强低光图像是低级视觉中的一项经典任务,具有许多利用深度神经网络的解决方案 [7, 12, 36]。最近,由于扩散模型在图像生成任务中取得了可喜的成果,因此人们对利用 LIE 的扩散模型来实现忠实的恢复结果越来越感兴趣。Diff-Retinex将Retinex分解作为扩散模型[40]的条件。PyDiff利用金字塔微光图像作为条件,并应用DDIM来加速采样阶段[26,48]。在WCDM中,在小波变换空间中构建扩散模型,恢复微光图像[11]的高频部分。GSAD提出了一种全局结构正则化来增强结构信息学习,这也有助于训练曲率较小的扩散模型,使推理阶段[10]的噪声调度更小。不幸的是,这些工作只考虑如何调节低光图像,而忽略了效率问题。

扩散模型加速。扩散模型在各种任务中表现出了良好的性能,如样式转移[4]、视频生成[5]和文本到图像生成[16,22,23]。然而,冗余采样步骤的问题仍然是一个显着的效率问题。最近的研究探索了加速扩散模型的各种策略。一系列方法涉及使用快速事后采样器 [17, 18, 26],它将预训练扩散模型的推理步骤数量减少到 20-50 步。然而,在 10 步内进一步加速采样时,大多数性能下降严重。为了解决这个限制,提出了步骤蒸馏 [19, 25],旨在将扩散模型提炼成更少的步骤。渐进式蒸馏(PD)[25]是第一个成功的实践,并产生两步无条件扩散。在 PD [25] 之后,Meng 等人。将 PD 应用于大规模稳定扩散,以 2 步实现文本到图像的生成。一致性蒸馏(CD)[27]旨在学习教师模型[27]扩散时间步之间的一致性。按照这一研究方向,CTM [13] 将这种一致性从各个时间步扩展到沿扩散模型的整个轨迹,从而实现忠实的无条件生成。尽管扩散蒸馏在其他领域的发展蓬勃发展,LLIE 的技术仍然留空。在本文中,我们提出了第一个为LLIE量身定制的蒸馏扩散,这将在以下部分中详细介绍。

3. Methods

令 x0 表示高质量图像,前向扩散过程旨在生成一系列嘈杂的潜在变量 x1, x2,。…, xT 使用马尔可夫过程,其定义由方程:
x t = α t x 0 + σ t ϵ , (1) x_{t}=\alpha_{t} x_{0}+\sigma_{t} \epsilon,\tag{1} xt=αtx0+σtϵ,(1)
其中 αt ∈ (0, 1) 表示噪声调度,σt 表示 t 处的协方差,ε 表示高斯噪声。在反向过程中,我们将微光图像y作为评分函数εη (xt, y, αt)的条件,迭代预测干净的图像:
x t − 1 η = α t − 1 ( x t − σ t ϵ η α t ) + σ t − 1 ϵ η . (2) x_{t-1}^{\eta}=\alpha_{t-1}\left(\frac{x_{t}-\sigma_{t} \epsilon_{\eta}}{\alpha_{t}}\right)+\sigma_{t-1} \epsilon_{\eta} .\tag{2} xt1η=αt1(αtxtσtϵη)+σt1ϵη.(2)
在本节中,我们提出了 ReDDiT,旨在训练一个参数为 θ 的学生扩散模型,以更少的步骤学习教师模型 η 的轨迹。我们首先介绍轨迹蒸馏。接下来,我们从理论上分析了导致性能下降的因素,并提出了一个简洁的公式来细化轨迹。然后,我们确定反射率分量对细化教师轨迹最有效,并设计了一个反射感知轨迹细化(RATR)模块。最后,将所有组件集成到 ReDDiT 框架中,其中执行蒸馏。

3.1. Trajectory Distillation

扩散蒸馏的本质不同于传统的知识蒸馏,蒸馏扩散模型从老师那里学习轨迹,保留了扩散模型特有的迭代采样特征。我们将 G(xt, y, t, s) 定义为从时间步 t 过渡到 s (s < t) 的轨迹解码器来表示扩散模型轨迹。从去噪扩散隐式模型中汲取灵感,我们将学生得分函数 εθ 的解码器表示为:
G θ ( x t , y , t , s ) = α s α t x t + ( σ s − α s α t σ t ) ϵ θ ( x t , y , t ) (3) G_{\theta}\left(x_{t}, y, t, s\right)=\frac{\alpha_{s}}{\alpha_{t}} x_{t}+\left(\sigma_{s}-\frac{\alpha_{s}}{\alpha_{t}} \sigma_{t}\right) \epsilon_{\theta}\left(x_{t}, y, t\right)\tag{3} Gθ(xt,y,t,s)=αtαsxt+(σsαtαsσt)ϵθ(xt,y,t)(3)
有了这个轨迹解码器,教师模型的轨迹可以从时间步 s 到 t 解码。为了更精确地估计整个教师轨迹,我们还利用中间步骤u∈[s, t)来估计轨迹,将轨迹解码器按二阶表述为:
x s , u , t η = G η ( G η ( x t , y , t , u ) , y , u , s ) = α s α t x t + σ s ϵ η ( x u , y , u ) + α s α u σ u ( ϵ η ( x t , y , t ) − ϵ η ( x u , y , u ) ) − α s α t σ t ϵ η ( x t , y , t ) , (4) \begin{aligned} x_{s, u, t}^{\eta} & =G_{\eta}\left(G_{\eta}\left(x_{t}, y, t, u\right), y, u, s\right) \\ & =\frac{\alpha_{s}}{\alpha_{t}} x_{t}+\sigma_{s} \epsilon_{\eta}\left(x_{u}, y, u\right) \\ & +\frac{\alpha_{s}}{\alpha_{u}} \sigma_{u}\left(\epsilon_{\eta}\left(x_{t}, y, t\right)-\epsilon_{\eta}\left(x_{u}, y, u\right)\right) \\ & -\frac{\alpha_{s}}{\alpha_{t}} \sigma_{t} \epsilon_{\eta}\left(x_{t}, y, t\right), \end{aligned}\tag{4} xs,u,tη=Gη(Gη(xt,y,t,u),y,u,s)=αtαsxt+σsϵη(xu,y,u)+αuαsσu(ϵη(xt,y,t)ϵη(xu,y,u))αtαsσtϵη(xt,y,t),(4)
为了便于蒸馏过程中的轨迹学习,学生模型应该匹配从t到s的教师轨迹。将学生轨迹表示为 xθ s,t = Gη (xt, y, t, s),蒸馏正则化表示为:
L distill  = ∥ x s , t θ − x s , u , t η ∥ 2 2 . (5) \mathcal{L}_{\text {distill }}=\left\|x_{s, t}^{\theta}-x_{s, u, t}^{\eta}\right\|_{2}^{2} .\tag{5} Ldistill = xs,tθxs,u,tη 22.(5)
通过这种正则化,信息中间步骤 u ∈ [s, t) 将在学生模型中提炼。在实践中,我们利用轨迹在学生和教师上预测的干净图像进行蒸馏以稳定训练。教师和学生的预测干净图像,表示为 xtarget 和 xest,公式如下:
x target  = x s , u , t η − ( σ s / σ t ) x t α ˉ s − ( σ s / σ t ) α ˉ t , x e s t = x s , t θ − ( σ s / σ t ) x t α ˉ s − ( σ s / σ t ) α ˉ t , (6) x_{\text {target }}=\frac{x_{s, u, t}^{\eta}-\left(\sigma_{s} / \sigma_{t}\right) x_{t}}{\bar{\alpha}_{s}-\left(\sigma_{s} / \sigma_{t}\right) \bar{\alpha}_{t}}, \quad x_{e s t}=\frac{x_{s, t}^{\theta}-\left(\sigma_{s} / \sigma_{t}\right) x_{t}}{\bar{\alpha}_{s}-\left(\sigma_{s} / \sigma_{t}\right) \bar{\alpha}_{t}},\tag{6} xtarget =αˉs(σs/σt)αˉtxs,u,tη(σs/σt)xt,xest=αˉs(σs/σt)αˉtxs,tθ(σs/σt)xt,(6)
蒸馏正则化修改为:
L distill  = λ ( t ) ∥ x target  − x est  ∥ 2 2 , (7) \mathcal{L}_{\text {distill }}=\lambda(t)\left\|x_{\text {target }}-x_{\text {est }}\right\|_{2}^{2},\tag{7} Ldistill =λ(t)xtarget xest 22,(7)
其中 λ(t) 是自适应权重,设置为 max(1, α2tσ2t)。

3.2. On the Refinement of the Teacher Trajectory

直接应用轨迹蒸馏往往会导致性能显著下降。在本节中,我们从理论上分析了这种退化背后的核心原因,并提出了一种减轻其影响的策略。

在教师轨迹的拟合误差上。为了理解这一点,让我们重新审视方程(3)和等式(4),并考虑 Ldistill = 0 的理想条件,这意味着学生的轨迹与教师的轨迹完美匹配。在这种情况下,我们有:
( σ s − α s α t σ t ) ϵ θ ( x t , y , t ) = σ s ϵ η ( x u , y , u ) − α s α t σ t ϵ η ( x t , y , t ) + α s α u σ u ( ϵ η ( x t , y , t ) − ϵ η ( x u , y , u ) ) . (8) \begin{aligned} \left(\sigma_{s}-\frac{\alpha_{s}}{\alpha_{t}} \sigma_{t}\right) \epsilon_{\theta}\left(x_{t}, y, t\right) & =\sigma_{s} \epsilon_{\eta}\left(x_{u}, y, u\right)-\frac{\alpha_{s}}{\alpha_{t}} \sigma_{t} \epsilon_{\eta}\left(x_{t}, y, t\right) \\ & +\frac{\alpha_{s}}{\alpha_{u}} \sigma_{u}\left(\epsilon_{\eta}\left(x_{t}, y, t\right)-\epsilon_{\eta}\left(x_{u}, y, u\right)\right) . \end{aligned}\tag{8} (σsαtαsσt)ϵθ(xt,y,t)=σsϵη(xu,y,u)αtαsσtϵη(xt,y,t)+αuαsσu(ϵη(xt,y,t)ϵη(xu,y,u)).(8)
由于教师模型使用香草扩散损失函数进行训练,理想的教师轨迹满足条件εη (xt, y, t) = εη (xu, y, u) =̃ε。在这种情况下,等式 (8) 可以简化为:
( σ s − α s α t σ t ) ϵ θ ( x t , y , t ) = ( σ s − α s α t σ t ) ϵ ~ (9) \left(\sigma_{s}-\frac{\alpha_{s}}{\alpha_{t}} \sigma_{t}\right) \epsilon_{\theta}\left(x_{t}, y, t\right)=\left(\sigma_{s}-\frac{\alpha_{s}}{\alpha_{t}} \sigma_{t}\right) \tilde{\epsilon}\tag{9} (σsαtαsσt)ϵθ(xt,y,t)=(σsαtαsσt)ϵ~(9)
然而,拟合误差的存在使得实现这一目标是不可能的。对不需要的组件的指导的存在不可避免地会导致次优结果。

在缓解拟合误差方面。幸运的是,我们发现这些不需要的术语可以通过缩放参数 ω ∈ (0, 1] 来缓解。对于项αsαu σu ̄εη (xt, y, t)−εη (xu, y, u),我们可以通过将其乘以缩放参数ω来进一步减小其影响。εη (xu) 和 εη (xt) 之间的不匹配引入了更显着的优化冲突。由于拟合误差的存在,该术语并不总是与 εη (xt, y, t) 一致。我们的关键见解是通过线性插值对理想值来细化这个术语,表示为 σt′′ωεη (xt, y, t) + (1 − ω) ̃ε푡。这种方法不仅保持了与先前术语的一致性,而且还提供了线性轨迹指导。在应用这些操作后,细化后的教师轨迹可以表示如下:
x ~ s , u , t η = α s α t x t + σ s ϵ η ( x u , y , u ) + ω α s α u σ u ( ϵ η ( x t , y , t ) − ϵ η ( x u , y , u ) ) − α s α t σ t ( ω ϵ η ( x t , y , t ) + ( 1 − ω ) ϵ ~ ) . (10) \begin{aligned} \tilde{x}_{s, u, t}^{\eta} & =\frac{\alpha_{s}}{\alpha_{t}} x_{t}+\sigma_{s} \epsilon_{\eta}\left(x_{u}, y, u\right) \\ & +\omega \frac{\alpha_{s}}{\alpha_{u}} \sigma_{u}\left(\epsilon_{\eta}\left(x_{t}, y, t\right)-\epsilon_{\eta}\left(x_{u}, y, u\right)\right) \\ & -\frac{\alpha_{s}}{\alpha_{t}} \sigma_{t}\left(\omega \epsilon_{\eta}\left(x_{t}, y, t\right)+(1-\omega) \tilde{\epsilon}\right) . \end{aligned}\tag{10} x~s,u,tη=αtαsxt+σsϵη(xu,y,u)+ωαuαsσu(ϵη(xt,y,t)ϵη(xu,y,u))αtαsσt(ωϵη(xt,y,t)+(1ω)ϵ~).(10)
为此,蒸馏损失 Ldistill 等价于以下内容,不考虑每一项的系数:
L distill  = ∥ ϵ θ ( x t , y , t ) − ϵ η ( x u , y , u ) ∥ + ∥ ϵ θ ( x t , y , t ) − ( ω ϵ η ( x t , y , t ) + ( 1 − ω ) ϵ ~ ) ∥ . (11) \begin{aligned} \mathcal{L}_{\text {distill }} & =\left\|\epsilon_{\theta}\left(x_{t}, y, t\right)-\epsilon_{\eta}\left(x_{u}, y, u\right)\right\| \\ & +\left\|\epsilon_{\theta}\left(x_{t}, y, t\right)-\left(\omega \epsilon_{\eta}\left(x_{t}, y, t\right)+(1-\omega) \tilde{\epsilon}\right)\right\| . \end{aligned}\tag{11} Ldistill =ϵθ(xt,y,t)ϵη(xu,y,u)+ϵθ(xt,y,t)(ωϵη(xt,y,t)+(1ω)ϵ~).(11)
关于推理差距的缓解。考虑到香草扩散是在高斯流上训练的,我们确定ε不是纯高斯噪声,而是将其移入残差空间,如下所示:
ϵ ~ = x t − α t x ~ 0 σ t = α t ( x 0 − x ~ 0 ) σ t + ϵ , (12) \tilde{\epsilon}=\frac{x_{t}-\alpha_{t} \tilde{x}_{0}}{\sigma_{t}}=\frac{\alpha_{t}\left(x_{0}-\tilde{x}_{0}\right)}{\sigma_{t}}+\epsilon,\tag{12} ϵ~=σtxtαtx~0=σtαt(x0x~0)+ϵ,(12)
其中,在低光和干净的图像空间之间,作为学生模型学习的中间初始空间。与高斯分布相比,这种定位确保了学生模型更接近初始分布。

此外,我们的调查表明,公式(10)中教师轨迹的细化可以通过一种直接的方法实现,如推论1所述。

推论1(在补充材料中证明)。给定细化分量(η) = αs * x0 + σsεη,式(10)等于:ωxη s,u,t = ωxη s,u,t +(1−ω) * xs。

3.3. Reflectance-Aware Trajectory Refinement

在确定分量时,使用地真值清洁图像x0会使ε退化为ε。一种自然的方法是使用弱光图像y = x = 0。在实际应用中,反射率与干净图像和弱光图像y具有相同的特征,可以作为更好地细化轨迹的分量。在此观察的基础上,我们提出了RATR模块来细化教师的轨迹,从而减少推理差距。

给定光照映射h和噪声z,根据Retinex理论,反射率可由x = y - z h求出。对于照度估计,我们采用低照度图像y的最大通道来表示估计的照度映射h ',这是通常的做法。对于ISO噪声估计,与之前的非学习降噪方法[1]类似,噪声可以建模为噪声图像与干净图像之间的距离。我们使用这个距离来估计输入低光图像的噪声图:
z ′ = ∣ y − ψ ( y ) ∣ , (13) z^{\prime}=|y-\psi(y)|,\tag{13} z=yψ(y),(13)
其中ψ表示非基于学习的去噪操作,允许灵活的蒸馏。通过这些估计,我们可以得到一个潜在的干净图像,例如:n × 0 = y - z ‘ h ’。然后,将n × 0用于轨迹精化以进行蒸馏。大量的烧蚀实验表明,这种改进减小了推理间隙,大大提高了性能。

3.4. Auxiliary Loss

在分类的知识蒸馏中,直接从数据标签中提取训练信号有助于学生分类器优于教师分类器。在ReDDiT中,我们通过引入来自像素和特征空间的直接信号,将这些原理扩展到我们的模型中。在像素空间中,我们对像素空间采用L2损耗:
L pix  = λ pix  ∥ x 0 − x est  ∥ 2 2 . (14) \mathcal{L}_{\text {pix }}=\lambda_{\text {pix }}\left\|x_{0}-x_{\text {est }}\right\|_{2}^{2} .\tag{14} Lpix =λpix x0xest 22.(14)
在特征空间中,我们利用感知损失来增强学生对结构和纹理细节的学习:
L per  = λ per  ∥ ϕ ( x 0 ) − ϕ ( x est  ) ∥ 2 2 . (15) \mathcal{L}_{\text {per }}=\lambda_{\text {per }}\left\|\phi\left(x_{0}\right)-\phi\left(x_{\text {est }}\right)\right\|_{2}^{2} .\tag{15} Lper =λper ϕ(x0)ϕ(xest )22.(15)
蒸馏阶段的最终损失是将所有组件集成到单个统一的训练框架中:
L total  = L distill  + L per  + L pix  . (16) \mathcal{L}_{\text {total }}=\mathcal{L}_{\text {distill }}+\mathcal{L}_{\text {per }}+\mathcal{L}_{\text {pix }} .\tag{16} Ltotal =Ldistill +Lper +Lpix .(16)

4. Experiments

4.1. Dataset and Implementation Details

数据集。我们评估了ReDDiT在各种数据集上显示低光图像区域噪声的性能,包括LOLv1[35]、LOLv2[39]、SID[3]、SDSD[29]、DICM[14]、LIME[8]、MEF[15]、NPE[30]和VV。

评价指标。我们综合评估了各种低光图像增强(LLIE)方法,采用全参考和非参考图像质量指标。在配对数据的情况下,我们测量峰值信噪比(PSNR)和结构相似指数(SSIM),以及学习到的感知图像斑块相似度(LPIPS)。对于DICM、LIME、MEF、NPE和VV等缺乏配对数据的数据集,我们依赖于自然图像质量评估器(NIQE)进行评估。

4.2. Comparison with State-of-the-Art Methods

LOLv1和LOLv2的检测结果。在LOLv1和LOLv2上,我们比较了ReDDiT与LIME[8]、RetinexNet[35]、KinD[45]、Zero-DCE[7]、DRBN[38]、KinD++[46]、mounggan[12]、MIRNet[43]、LLFlow[47]、SNR-Net[37]、LLFormer[32]、PyDiff[48]、WCDM[31]和GSAD[10]。表1给出了各种LLIE方法的定量结果,展示了我们的方法在所有比较指标(包括PSNR、SSIM和LPIPS)上的优越性能。在LoLv1、LoLv2-real和LoLv2-synthetic上分别观察到新的SOTA PSNR分别为28.090、31.250和30.166。值得注意的是,ReDDiT一直优于其他方法,在LPIPS分数上表现出实质性的改善,这表明感知质量得到了提高。值得注意的是,ReDDiT在所有蒸馏模型(8,4,2步)上对LOLv2-real/LOLv2-synthetic数据集实现了SOTA性能。在LOLv1数据集上,我们的方法通过8步和4步采样获得SOTA结果,并且与之前的2步采样方法保持相当。图3所示的视觉对比进一步突出了ReDDiT在减轻伪像和增强图像细节方面的有效性。值得注意的是,如图3的红框所示,ReDDiT擅长于恢复清晰的结构和复杂的细节。这强调了我们的方法利用生成建模来捕获自然图像分布并在蒸馏模型中保留这些特征的能力,从而产生卓越的视觉效果。
在这里插入图片描述
在这里插入图片描述
SID和SDSD结果。在SID和SDSD上,我们比较了ReDDiT与SID[3]、DeepUPE[28]、Uformer[34]、retexnet[35]、KinD[45]、DRBN[38]、ighportan[12]、MIRNet[43]、SNR-Net[37]和retexformer[2]。表2给出了SID和SDSD的定量结果,表明ReDDiT能够有效处理更复杂的弱光条件。具体而言,我们的方法在SID和SDSD数据集上建立了新的SOTA PSNR值为25.32 dB/29.95 dB。目视比较见补充资料。
在这里插入图片描述
在这里插入图片描述在这里插入图片描述

DICM、LIME、MEF、NPE、VV检测结果。我们直接将在lolv2合成数据集上训练的模型应用于这些未配对的现实世界数据集。从表3可以看出,ReDDiT在NIQE得分上明显优于所有竞争对手,显示出其强大的泛化能力。如图4所示,我们的模型能够熟练地调节光照条件,有效地提高低光照区域的能见度,同时避免过度曝光。

4.3. Comparison with Other Accelerate Methods

我们对应用于预训练扩散模型的各种加速技术进行了综合评估。对比分析的定量结果如图5所示。值得注意的是,我们的研究强调了采用蒸馏策略提高模型性能的关键重要性。
在这里插入图片描述

在评估的技术中,我们的蒸馏策略在所有数据集和所有采样步骤中表现最佳。我们取得了比教师模型,正如直接应用DDIM的性能改进所证明的那样。然而,值得注意的是,一致性蒸馏技术的最新进展显示出比传统的ODE求解器方法略有优势,进一步强调了蒸馏方法在优化模型性能方面的重要性。

最值得注意的是,ReDDiT明显优于其他技术,证明了投资额外的培训成本以获得更好的结果的巨大好处。这强调了蒸馏策略在有效地将知识从准备充分的教师模型转移到学生模型中所起的关键作用,从而提高了ReDDiT的整体表现。这些发现强调了ReDDiT优越性能的重要性,强化了其功效,以及采用复杂蒸馏技术在推进SOTA在弱光图像增强中的价值。

4.4. Ablation Study

细化模块上的消融。没有细化模块的性能下降在图 7 中很明显,与 SOTA 性能相比,该模块的缺失导致最显着的下降。图 8 中的进一步分析更详细地研究了细化模块的影响。
在这里插入图片描述

随着采样步数的减小,细化模块的影响变得更加明显。在两步蒸馏的情况下,图 8 说明了随着改进强度的增加而持续的性能改进。在LOLV2-Real上,4步蒸馏结果甚至超过了8步扩散模型的性能,并在ω=0.8的情况下获得了新的SOTA结果。这一趋势归因于细化模块在解决教师模型的拟合误差随着步数的减小而提高的重要性。因此,细化模块对于在这种情况下准确估计轨迹变得至关重要。

在我们之前的实验中,我们选择了在之前的消融研究中产生最佳性能的细化强度。该决定确保细化模块有效地减轻了教师模型的拟合误差,从而提高了学生模型在蒸馏过程中的性能。
在这里插入图片描述

x选择的消融研究。我们将 ̃x 的选择与使用干净图像 x0、低光图像 y、可学习 Retinex 方法(例如 PairLLIE [6])和我们的反射率分量进行细化进行比较,如图 6 所示。反射率和低光图像 y 都有效地探索了更好的残差空间,导致与原始高斯空间(x0 为 ̃x)相比性能显着提高。这表明移动残差空间对于提高 LLIE 任务中学生模型的性能至关重要。

此外,当用于细化时,与使用干净图像 x0 和低光图像 y 进行细化相比,PairLIE 结果的表现甚至很差。虽然它的预测更接近干净的图像x0,但它无法识别学生模型学习的合适剩余空间,最终未能解决推理差距。

辅助损失的消融。如图 7 所示,对 Lpix 和 Lper 进行消融研究会导致蒸馏性能略有下降。这一观察强调了直接从地面实况数据中获取监督信号的有效性。有趣的是,与 Lpix 相比,Lper 对性能表现出更明显的影响,强调了在特征空间中利用监督信号的重要性。

此外,与去除 RATR 模块时观察到的实质性退化相比,消融任一损失项导致的性能下降很小。这一发现突出了 RATR 模块在我们的框架中的关键作用。

4.5. Efficiency Comparison

我们从推理时间、每秒帧数(FPS)和参数数量方面评估了我们的方法的效率,并将其与最近基于扩散的LLIE方法进行了比较。表4显示了这种比较分析的定量结果。我们的方法,特别是在其两步变体中,在推理速度、FPS和参数效率方面表现出了卓越的性能。它实现了计算效率和模型性能之间的最佳平衡,在速度和资源利用率方面都超越了其他方法。这种比较突出了我们的方法在以最小的计算开销提供高性能结果方面的有效性。
在这里插入图片描述

4.6. Limitation and Future work

虽然ReDDiT在2步内恢复方面表现出色,但单步恢复还不是最优的,存在明显的局限性。单步恢复,低效去噪导致低PSNR和细节上的伪影。单个步骤中的失败案例将在补充材料中演示。此外,本研究未涉及轻量级去噪网络的探索。在我们未来的工作中,我们将继续探索基于扩散的LLIE高效方法。我们的重点将是研究单步扩散模型的潜力,并开发一个轻量级的去噪网络。

5. Conclusions

本文从理论上分析了导致扩散蒸馏技术性能下降的两个主要因素。在此基础上,我们介绍了ReDDiT,这是LLIE高效扩散模型的一项重大进展。ReDDiT的核心是在反射率感知残差空间中使用线性勘探,这减少了轨迹拟合误差和采样间隙。这些创新使ReDDiT能够保持图像的内在结构完整性,同时最大限度地减少采样步骤。ReDDiT仅需2步即可实现与以前方法相当的性能,并在4步和8步设置新的SOTA结果。在10个基准数据集中,ReDDiT始终优于现有方法。这标志着LLIE向实时扩散模型迈出了有希望的一步,我们在这一领域的研究将继续进行。


回顾一下网络结构:

用实践巩固理论!请马不停蹄地来到复现文章吧!看看XX模型结构具体是如何实现的吧!

本文对应的复现文章:


至此本文结束。

如果本文对你有所帮助,请点赞收藏,创作不易,感谢您的支持!

点击下方👇公众号区域,扫码关注,可免费领取一份200+即插即用模块资料

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

十小大

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值