【图像增强】论文精读:Light the Night: A Multi-Condition Diffusion Framework for Unpaired Low-Light Enhancement

请先看【专栏介绍文章】:


前言

论文题目:Light the Night: A Multi-Condition Diffusion Framework for Unpaired Low-Light Enhancement in Autonomous Driving —— 照亮夜晚:自动驾驶中无空气低光增强的多条件扩散框架

论文地址:Light the Night: A Multi-Condition Diffusion Framework for Unpaired Low-Light Enhancement in Autonomous Driving

论文源码:https://github.com/jinlong17/LightDiff

CVPR 2024!Diffusion-based



Abstract

近年来,基于视觉的自动驾驶感知系统因其成本效益和可扩展性而受到广泛关注,特别是与基于LiDAR的系统相比。然而,这些系统通常在弱光条件下挣扎,可能会影响它们的性能和安全性。为了解决这个问题,我们的论文引入了 LightDiff,这是一个领域定制的框架,旨在增强自动驾驶应用的低光图像质量。具体来说,我们采用了多条件控制扩散模型。LightDiff 在没有任何人工收集的配对数据的情况下工作,而是利用动态数据退化过程。它包含一种新颖的多条件适配器,它自适应地控制来自不同模态的输入权重,包括深度图、RGB 图像和文本标题,以在保持上下文一致性的同时有效地照亮黑暗场景。此外,为了将增强图像与检测模型的知识对齐,LightDiff 采用特定感知的分数作为奖励,通过强化学习指导扩散训练过程。在nuScenes数据集上的大量实验表明,LightDiff可以在夜间条件下显著提高几种最先进的3D探测器的性能,同时实现较高的视觉质量分数,突出了其保护自动驾驶的潜力。

1. Introduction

夜间驾驶对人类具有挑战性,即使是自动驾驶汽车也是如此,如图 1 所示。 2018 年 3 月 18 日,当 Uber Advanced Technologies Group 自动驾驶车辆结构并在亚利桑那州杀死行人时,灾难性事件突出了这一挑战 [37]。这种事件是由于车辆未能在弱光条件下准确检测行人,使得自动驾驶汽车对前沿的安全担忧,特别是在如此苛刻的环境中。随着以视觉为中心的自动驾驶系统主要依靠相机传感器变得更加普遍,解决弱光条件的安全影响对于确保这些车辆的整体安全性变得越来越重要。

在这里插入图片描述

一种直观的解决方案是收集广泛的夜间驾驶数据。然而,这种方法不仅劳动密集型和昂贵,而且由于夜间和白天的图像分布不同,它还可能会损害白天模型的性能。为了导航这些挑战,我们提出了一种照明扩散 (LightDiff) 模型,这是一种新方法,无需手动数据收集,并在白天保持模型性能。

LightDiff 旨在增强弱光相机图像,提高感知模型性能。利用动态弱光退化过程,LightDiff从现有的白天数据生成合成的昼夜图像对进行训练。然后,我们使用稳定扩散[44]来产生高质量的视觉,有效地将夜间场景转换为白天的等价物。然而,保持语义一致性在自动驾驶中至关重要,这是对原始稳定扩散模型的挑战。为了克服这个问题,LightDiff 结合了多种输入模式,例如估计的深度图和相机图像标题,以及多条件适配器。该适配器智能地确定每个输入模态的权重,确保变换后的图像的语义完整性,同时保持较高的视觉质量。为了引导扩散过程不仅对人类视觉上更亮的方向,而且对于感知模型,我们使用强化学习和循环中感知定制的领域知识进一步微调我们的 LightDiff。我们对自动驾驶数据集nuScenes[7]进行了广泛的实验,并证明我们的LightDiff可以在夜间显著提高3D车辆检测平均精度(AP),对于两个最先进的模型BEVDepth[32]和BEVStereo[31],分别为4.2%和4.6%。我们的贡献总结如下:

  • 我们提出了光扩散 (LightDiff) 模型来增强用于自动驾驶的低光相机图像,减轻了对大量夜间数据收集和保持白天性能的需求。
  • 我们将包括深度图和图像标题在内的多种输入模式与提出的多条件适配器相结合,以确保图像变换中的语义完整性,同时保持较高的视觉质量。我们采用一个实际过程,从白天数据生成昼夜图像对,以实现有效的模型训练。
  • 我们提出了一种使用强化学习对 LightDiff 进行微调机制,结合感知定制的领域知识(值得信任的 LiDAR 和统计分布一致性),以确保扩散过程有利于人类的视觉感知和感知模型。
  • 对 nuScenes 数据集的广泛实验表明,LightDiff 显着提高了夜间的 3D 车辆检测,并在多个视觉指标上优于其他生成模型。

2. Related Work

暗图像增强。暗图像增强旨在提高黑暗条件下图像的视觉质量和可感知性。它包括监督方法[39,43],它使用成对的数据集和无监督方法[16,28,34,35]来增强没有这种配对数据的图像。开发了一些增强方法[8,20 - 23]来克服在弱光条件下处理曝光不足和/或过度曝光区域的局限性。微光图像增强有一些扩散模型[11,17,49,53],它显式地集成了退化先验和扩散生成能力,但它们需要训练数据中的配对数据。

视觉中的大型语言模型。视觉和语言 (VL) 模型 [1, 3, 10, 12, 29, 30, 40] 在计算机视觉方面取得了明显进展。CLIP[40]通过基于自然语言处理的监督获取可转移的视觉概念,从图像标题对的大规模数据集中学习知识。在语言模型的辅助下,文本/标题可用于促进不同的计算机视觉任务,如CyCLIP[12]和unCLIP[41]。因为VL模型包含大量的视觉和语言理解,因此它们可以用来评估图像质量[56]。这种洞察力启发我们利用VL模型相关技术来增强微光图像[12,25,41]。

基于扩散的生成模型。基于扩散的模型[18]通过迭代去噪过程在图像合成方面取得了显著成功。已经为文本到图像生成任务开发了不同的基于扩散的方法 [15, 45, 46, 55],在计算机视觉中表现出色。与一些依赖于文本提示的基于扩散的方法不同,如Dreambooth[45],最近的ControlNet[55]将基于空间条件的控制信号合并到预先训练的文本到图像扩散模型中。利用强稳定扩散[44]模型作为骨干网,在潜在特征空间中进行去噪过程,本文努力增强暗能见度,解决感知问题,增强夜间驾驶的安全性。

3. Methodology

我们的目标是提出一种用于微光图像增强的通用框架,该框架可以有利于自动驾驶中的感知。为了处理不同的驾驶场景,我们利用预先训练的稳定扩散模型中注入的强生成先验,该模型已被证明可以为各种文本到图像和图像到图像的任务提供有希望的结果。为了训练模型,我们构建了一个通用的夜间图像生成管道,它可以模拟真实的低光图像以生成训练数据对(详见第 3.1 节)。然后,我们在SEC中介绍了我们提出的(LightDiff)模型。3.2,一种新的条件生成模型,它可以自适应地利用各种条件模式–微光图像、深度图和文本提示–来预测增强的光输出。图 2 描述了我们提出的 LightDiff 架构的整个管道。为了提高我们模型的任务意识,我们引入了一种奖励策略,该策略考虑了可信激光雷达和统计分布一致性的指导,在第3.3节中进一步描述。最后,我们提出了一种循环照明推理策略,以在测试时进一步提高模型的结果,这将在第3.4节中解释。
在这里插入图片描述

3.1. Training Data Generation

在动态驾驶场景中收集夜间配对图像本身就具有挑战性。针对这一挑战并引入更多受控条件,我们构建了一个新的训练数据生成管道。如图3所示,该管道生成多模态配对数据,包括1)指令提示,2)激光雷达生成的可信深度图,3)对应的退化暗光图像。从白天图像 Iday 作为我们的目标地面实况开始,我们通过将文本提示输入大型图像字幕模型 [5] 来提取文本提示。同时,我们使用预训练的深度估计网络[42]来获得相应的深度图。在提供 LiDAR 和相机传感器的常见自动驾驶场景中,我们将 LiDAR 点云投影到相机坐标系中作为稀疏点,然后将其用作地面实况监督来训练深度估计网络。预训练的深度估计网络被冻结,用于我们的照明扩散模型的训练和测试。与对光照条件敏感的相机不同,激光雷达在整个白天和夜间场景中保持信息一致性。从[9]中获得灵感,我们利用弱光退化变换Tdeg来合成生动的暗光图像Tdeg (Iday),如图3所示。具体来说,我们首先使用sRGB→RAW过程[6]将白天的图像Iday转换为RAW数据。随后,我们线性衰减RAW图像并引入Shot和Read (S&R)噪声,如相机成像系统[6]中常见的那样。最后,我们应用图像信号处理 (ISP) 管道将低光传感器测量转换回 sRGB。整体低光退化变换 Tdeg 可以简化为:
T deg  ( I day  ) = T I S P ( T sRGB  → R A W ( I day  ) + I noise  ) , (1) T_{\text {deg }}\left(\mathrm{I}_{\text {day }}\right)=T_{I S P}\left(T_{\text {sRGB } \rightarrow R A W}\left(\mathrm{I}_{\text {day }}\right)+\mathrm{I}_{\text {noise }}\right),\tag{1} Tdeg (Iday )=TISP(TsRGB RAW(Iday )+Inoise ),(1)
生成类似于暗夜间图像的退化图像Ideg。我们设计了一种动态退化过程,采用在线方式,随机组合方程的参数范围。(1)模拟更广泛的夜间驾驶场景。

在这里插入图片描述

3.2. Lighting Diffusion Model (LightDiff)

我们的目标是生成一个像素级增强图像,它精心细化局部纹理,准确地重建光细节的全局几何轮廓,以使用我们的数据管道生成的多模态输入数据的三元组为条件(第3.1节)。与之前的条件生成模型44,55不同,我们的方法识别和集成每种类型的输入模式对最终输出的生成的不同贡献。由图像编码器处理,将退化图像Ideg和深度图Idep的潜在特征分别记为Fdeg∈RH×W ×C和Fdep∈RH×W ×C输入到所提出的多条件适配器(第3.2.2节),该适配器根据每个输入模态的全局贡献自适应地融合多个条件。我们采用ControlNet架构[55]使用UNet编码器的可训练副本学习融合的额外条件,同时保持骨干扩散模型冻结。

3.2.1 Preliminary: Stable Diffusion

我们采用稳定扩散(SD),这是一种大规模的文本到图像预训练潜在扩散模型,在动态驾驶场景中实现暗增强。根据定义,扩散模型通过一系列去噪步骤生成数据样本,这些去噪步骤估计数据分布的分数。为了提高效率和稳定训练,SD 预训练变分自动编码器 (VAE) [26],它将图像 I 压缩为具有编码器 E 的潜在 z,并使用解码器 D 对其进行重建。扩散和去噪过程都发生在潜在空间中。在扩散过程中,在时间 t 的方差 βt ∈ (0, 1) 的高斯噪声被添加到编码的潜在 z = E(I) 中以产生噪声潜在:
z t = α ˉ t z + 1 − α ˉ t χ (2) z_{t}=\sqrt{\bar{\alpha}_{t}} z+\sqrt{1-\bar{\alpha}_{t}} \chi\tag{2} zt=αˉt z+1αˉt χ(2)
其中 χ ∼ N (0, I),αt = 1−βt,̄αt = ∏t s=1 αs。当t足够大时,潜在zt近似于标准高斯分布。通过在随机选择的时间步 t 预测以 ct(文本提示)为条件的噪声 푥θ 来学习网络。潜在扩散模型的优化目标定义为:
L L D M = E z , c t , t , ϵ [ ∥ ϵ − ϵ θ ( z t , c t , t ) ∥ 2 2 ] , (3) \mathcal{L}_{L D M}=\mathbb{E}_{z, c_{t}, t, \epsilon}\left[\left\|\epsilon-\epsilon_{\theta}\left(z_{t}, c_{t}, t\right)\right\|_{2}^{2}\right],\tag{3} LLDM=Ez,ct,t,ϵ[ϵϵθ(zt,ct,t)22],(3)
其中 t 是均匀采样的,并且 ¢ 是从高斯分布中采样的。

3.2.2 Multi-Condition Adapter

为了辨别不同视觉条件的重要性,我们引入了一种新的多条件适配器,旨在根据输入数据动态权衡条件。特别是,具有配对深度图 Fdep ∈RH×W ×C 的暗光输入 Fdeg ∈ RH×W ×C 的潜在特征被连接为 F(dep,deg),并馈入卷积层。然后将它重塑为 R2C×(H×W ),表示为 Fc(dep,deg)。softmax 层应用于 Fc(dep,deg) 及其转置的矩阵乘法,得到多条件权重 W ∈ R2C×2C :
w ( d e p , d e g ) = exp ⁡ ( F d e p c ⋅ F d e g c ) ∑ c exp ⁡ ( F d e p c ⋅ F d e g c ) , (4) w_{(d e p, d e g)}=\frac{\exp \left(\mathbf{F}_{d e p}^{c} \cdot \mathbf{F}_{d e g}^{c}\right)}{\sum_{c} \exp \left(\mathbf{F}_{d e p}^{c} \cdot \mathbf{F}_{d e g}^{c}\right)},\tag{4} w(dep,deg)=cexp(FdepcFdegc)exp(FdepcFdegc),(4)
其中 w(dep,deg) 衡量 Fdeg 对 Fdep 的影响。转置的 W 与 Fc(dep,deg) 相乘,然后重塑为 R2C×H×W。使用 Fc(dep,deg) 的元素求和运算产生输出 F′deg ∈ R2C×H×W :
F d e g ′ = ∑ c ( w ( d e p , d e g ) F d e p c ) + F d e g c . (5) \mathrm{F}_{d e g}^{\prime}=\sum_{c}\left(w_{(d e p, d e g)} \mathbf{F}_{d e p}^{c}\right)+\mathbf{F}_{d e g}^{c} .\tag{5} Fdeg=c(w(dep,deg)Fdepc)+Fdegc.(5)
同理,我们可以得到F 'dep∈R2C×H×W。最终输出表示所有条件的加权组合,捕获多种模式之间的语义依赖关系。多条件适配器简洁表示为:
F deg  ′ , F dep  ′ = M C −  Adaptor  ( F deg  , F dep  ) . (6) \mathrm{F}_{\text {deg }}^{\prime}, \mathrm{F}_{\text {dep }}^{\prime}=\mathrm{MC}-\text { Adaptor }\left(\mathrm{F}_{\text {deg }}, \mathrm{F}_{\text {dep }}\right) .\tag{6} Fdeg ,Fdep =MC Adaptor (Fdeg ,Fdep ).(6)

3.2.3 Controlling the Stable Diffusion Model

受 [55] 的启发,我们采用了从头开始训练的附加条件网络来编码额外的条件信息。我们首先使用稳定扩散的预训练 VAE 的编码器将 Ideg 和 Idep 映射到潜在空间,得到条件潜伏期 Fdeg 和 Fdep。SD 中的 UNet 降噪器执行潜在扩散,包括编码器、中间块和解码器。我们创建了UNet编码器的附加副本(在图2(b)中用橙色表示),以注入额外的视觉条件。经过多条件适配器处理后,条件潜函数F 'deg和F 'dep与随机采样的噪声zt连接,作为编码器可训练副本的输入。它们的输出被添加到原始的UNet解码器中,在每个尺度的残差加法操作之前应用1 × 1卷积层(在图2(b)中表示为橙色矩形)。在微调期间,附加模块和这些 1×1 卷积层同时优化。通过最小化以下潜在扩散目标来学习预测添加到噪声图像zt中的噪声zn:
L Lighting  = E z t , c t , c d , t , ϵ [ ∥ ϵ − ϵ θ ( z t , c t , c d , t ) ∥ 2 2 ] , (7) \mathcal{L}_{\text {Lighting }}=\mathbb{E}_{z_{t}, c_{t}, c_{d}, t, \epsilon}\left[\left\|\epsilon-\epsilon_{\theta}\left(z_{t}, c_{t}, c_{d}, t\right)\right\|_{2}^{2}\right],\tag{7} LLighting =Ezt,ct,cd,t,ϵ[ϵϵθ(zt,ct,cd,t)22],(7)
其中cd表示结合暗光图像和深度图的条件。

3.3. LiDAR and Distribution Reward Modeling

为了实现细粒度的面向任务的控制,我们引入了一种奖励策略,该策略在训练过程中考虑了可信 LiDAR的指导和统计分布一致性。我们创建了一个训练计划,当采样时间步 t 小于阈值 τ 时,奖励仅应用于预测的干净潜在图像 zI。我们利用冻结深度估计网络并应用分布感知的统计一致性模块来加强分布对齐。如图2所示,将zI输入到图像解码器中,生成与原始真实白天图像形状相同的像素级图像特征Ipred。深度估计网络预测深度图,其不对中度量(LDepth)是可信LiDAR点云与地面真实深度图的均方误差。

为了解决增强光照图像和真实白天图像之间的分布差距,我们检查了统计差异和特征分布之间的关系。以前的研究[19]建立了统计差异和分布差异之间的正相关。因此,为了最小化 zI 和 zgt 之间的特征分布差异,我们引入了分布感知统计一致性模块,利用最大平均差异 (MMD) [14] 距离 (LMMD) 作为度量。具体来说,令 ZI = {zi I } 和 Zgt = {zi gt} 分别表示一组增强的照明和真实的白天特征。奖励模型将预测的干净图像 zI 作为输入,并输出两个标量奖励,即深度和分布分数。遵循强化学习 (RL) 训练策略 [27, 38],由 UNet 降噪器 attnθ 表示的代理呈现预测的干净图像 zI 并期望基于 zI 的响应。它采用 zI 并产生由奖励模型确定的奖励,从而结束情节。我们在 RL 训练中最小化以下组合目标函数:
L o b j = E z t , c t , c d , t , ϵ [ ∥ ϵ − ϵ θ ( z t , c t , c d , t ) ∥ 2 2 ] + Φ E z t , c t , c d , t , ϵ R L ( L M M D ( Z I , Z g t ) , L Depth  ( z I ) ) , (8) \begin{aligned} \mathcal{L}_{\mathrm{obj}} & =\mathbb{E}_{z_{t}, c_{t}, c_{d}, t, \epsilon}\left[\left\|\epsilon-\epsilon_{\theta}\left(z_{t}, c_{t}, c_{d}, t\right)\right\|_{2}^{2}\right] \\ & +\Phi_{\mathbb{E}_{z_{t}, c_{t}, c_{d}, t, \epsilon}}^{R L}\left(L_{\mathrm{MMD}}\left(\mathcal{Z}_{I}, \mathcal{Z}_{g t}\right), L_{\text {Depth }}\left(z_{I}\right)\right), \end{aligned}\tag{8} Lobj=Ezt,ct,cd,t,ϵ[ϵϵθ(zt,ct,cd,t)22]+ΦEzt,ct,cd,t,ϵRL(LMMD(ZI,Zgt),LDepth (zI)),(8)
其中 ΦRLEzt ,ct ,cd ,t,푡 是学习策略。这种设计的奖励建模将通过利用可信激光雷达和统计分布一致性来指导我们的照明扩散模型的训练。
在这里插入图片描述

3.4. Recurrent Lighting Inference

与清晰的白天图像相比,真实世界的图像往往存在能见度低、光照分布不均匀的问题。这些条件对预训练的深度估计网络以及图像字幕模型的深度生成提出了重大挑战。为了解决这些问题,我们实现了一个迭代反馈过程,包括细化文本提示和调整生成的深度图,如图9所示。该过程在深度估计网络、图像字幕模型和光照扩散模型保持不变的循环中执行,旨在提高文本提示的准确性,并为初始暗图像细化深度图,从而提高整体光照结果。特别是,该过程首先将真实的夜间图像输入深度估计网络和图像字幕模型,以获得相应文本提示和深度图的初始估计。然后,照明扩散模型使用这些输入来产生增强的照明图像。随后,我们输入这个初始增强图像来替换原始的夜间图像,以进一步生成细化的文本提示和深度图,并将其作为下一次迭代的输入。循环重复,直到最终生成的图像的相似性稳定,但在实践中,我们发现只有两次迭代就足以生成高质量的增强图像。

4. Experimental Results

4.1. Experimental Setup

数据集。为了探索自动驾驶视觉感知任务的弱光增强,我们在nuScenes数据集[7]上进行了实验,该数据集是多个视觉任务最流行的自动驾驶数据集之一。它由 700 个用于训练的场景、150 个用于验证的场景和 150 个用于测试的场景组成。对于每个场景,它提供分辨率为1,600 × 900的图像,从6个周围相机(前、左、右前、后、左、右)覆盖整个视点,以及360◦LiDAR点云。提供了包括内部和外部的摄像机矩阵,建立了每个3D点和2D图像平面之间的一一对应关系。我们选择包含总共24,745个摄像头正面图像的nuScenes训练集的所有616个白天场景作为我们的训练集。nuScenes 验证集中所有 15 个包含总共 602 个相机正面图像的夜间场景作为我们的测试集。

评估指标。在我们的实验中,我们评估了低光增强和 3D 检测任务。对于弱光增强任务的定量评估,由于真实自动驾驶场景中缺乏成对的昼夜数据,我们采用了九个无参考图像质量评估(IQA)指标,MUSIIQ [24], NIQE [36], HyperIQA [47], ILNIQE [54], MANIQA [52], NIMA[48]和TRES[13]。在 3D 感知任务中,我们选择“Car”类别作为主要对象来报告平均精度 (AP),以及实验中的平均平移误差 (ATE)、平均尺度误差 (ASE)、平均方向误差 (AOE)。

训练。我们在nuScenes白天训练集上部署了第3.1节中描述的训练数据生成方法,以获得三重模态配对数据:1)指令提示,2)具有LiDAR点云投影的可信深度图,3)退化的暗图像。我们在单个 NVIDIA RTX A6000 GPU 上实现了 100 个 epoch 的 LightDiff,批量大小为 4。我们利用 Adam 作为优化器,学习率为 1 × 10−5。在设置 [44, 55] 之后,我们将输入图像和条件图的大小调整为 512,并将预训练的 SD 模型 [44] 调整为 2.1。为了在推理阶段获得准确的深度图,我们基于白天和夜间图像和 nuScenes 训练数据集的相应 LiDAR 点云投影训练了一个预训练的深度估计网络 [42]。

推理。给定nuScenes验证集的夜间图像,不同于利用真实LiDAR点云投影来帮助构造估计的深度图的训练阶段,我们通过预先训练的深度估计网络生成深度图。此外,我们应用我们提出的循环照明推理 (ReLI) 来优化它们对应的文本提示和深度图。

比较方法。在我们的实验中,我们将我们提出的 LightDiff 的生成质量和 3D 检测性能与其他现有的代表性暗图像增强相关方法进行了比较。我们通过将我们的方法与包括 Afifi 等人的监督增强方法在内的突出方法进行比较来评估我们的方法。 [2]、URetinex-Net [50]、SNR-Aware-LOLV1 [51]、无监督增强方法,如 EnlightenGAN [22]、CLIPLIT [33]、Zero-DCE++ [28] 和基于扩散的方法,如 ShadowDiffusion [17]、曝光扩散 [49]。一些方法已经在不同的数据集上发布了他们的预训练模型。为了证实例外我们的方法性能在很大程度上,我们对这些预训练模型进行了比较分析。此外,我们提供了重新训练无监督方法的性能评估,在与我们的方法相同的训练集上执行,从而有助于更全面的验证。

4.2. Comparison Results

视觉比较。我们在图 5 中展示了来自 nuScenes 夜间验证集的一些样本的视觉比较。我们的方法始终以改进的颜色和消除噪声产生视觉上令人愉悦的结果。此外,我们的方法擅长处理具有挑战性的黑暗区域,在不引入任何噪声的情况下恢复清晰的纹理细节和令人满意的亮度,而其他方法可能无法解决这种黑暗区域,或者产生不可见噪声的结果。具体来说,我们可以看到,与 RUAS-LOL [34] 和 SCIhard [35] 相比,我们的方法产生的结果没有过度曝光或曝光不足。我们的结果在全球区域表现出更好的颜色对比度和输入输出一致性。在这里插入图片描述

在这里插入图片描述

定量比较。在实际动态驾驶场景中收集夜间配对图像是无法实现的,目前我们依靠几个非参考图像质量评估 (IQA) 指标来评估定量结果。nuScenes夜间验证集的定量比较如表1所示。与其他方法相比,我们的方法在四个无参考IQA指标中取得了最佳性能,显示了我们结果的令人满意的图像质量。
在这里插入图片描述
在这里插入图片描述

3D感知比较和可视化。对于 3D 感知任务,我们只增强 nuScene 夜间验证集的前置摄像头视图,而其他 5个摄像头视图保持原始黑暗。我们利用在nuScenes日耳训练集上训练的两种3D感知最先进的方法BEVDepth[32]和BEVStereo[31],这对于在现实世界的驾驶场景中收集和注释更有效,以评估汽车检测与我们生成的条件对感知性能的影响。我们在表2中展示了nuScenes夜间验证集上的3D感知性能定量比较。与原始夜间图像的结果相比,通过应用我们的增强图像,BEVDepth和BEVStereo可以达到17.6% AP和17.0% AP,提高了4.2% AP和4.6% AP。在没有任何额外训练要求的情况下,我们提出的方法可以通过直接应用我们生成的增强图像来提高当前模型的感知性能。但SCI[35]和Zero-DCE++[28]等一些比较增强方法对3D感知性能有负面影响,导致性能下降。我们在图6中可视化了前置摄像头视图和Bird’s-Eye-View (BEV)的一些3D检测结果。我们提出的LightDiff不仅帮助驾驶员在黑暗中看到更明显,而且帮助深度学习感知在具有挑战性的真实世界黑暗条件下更准确地检测。

4.3. Ablation Study

为了验证我们提出的组件的有效性,我们在表 4 中提供了 3D 感知和黑暗增强任务的定量比较。图 7 的视觉比较结果显示了识别不同视觉条件重要性的有效性。图8中的热图说明了每个图像像素与两种不同模态输入的相关性。表 3 明确展示了每种模态输入在我们的 LightDiff 中的有益影响。我们提出了循环光推理 (ReLI) 的有效性,可以有效地优化图 9 中多模态生成的准确性。这表明我们的 LightDiff 可以通过我们的 Multi-Conditional Adapter 产生更好的颜色对比度和更丰富的细节。表 4 中的结果清楚地证明了我们的 LightDiff 的每个提议组件的积极影响。
在这里插入图片描述在这里插入图片描述在这里插入图片描述

5. Conclusions

本文介绍了LightDiff,这是一个领域定制的框架,旨在增强自动驾驶应用的低光图像质量,减轻了以视觉为中心的感知系统所面临的挑战。通过利用动态数据退化过程,一种用于不同输入模式的多条件适配器,以及使用强化学习感知特定的分数引导奖励建模,LightDiff 在 nuScenes 数据集上的夜间显着提高了图像质量和 3D 车辆检测。这种创新不仅消除了对大量夜间数据的需求,而且还确保了图像变换的语义完整性,证明了它在自动驾驶场景中提高安全性和可靠性的潜力。如果没有真实的配对昼夜图像,用车辆灯合成暗驾驶图像是非常困难的,限制了该领域的研究。未来的研究可以集中在更好地收集或生成高质量的训练数据上。


XX总结:


用实践巩固理论!请马不停蹄地来到复现文章吧!看看XX模型结构具体是如何实现的吧!

本文对应的复现文章:


至此本文结束。

如果本文对你有所帮助,请点赞收藏,创作不易,感谢您的支持!

点击下方👇公众号区域,扫码关注,可免费领取一份200+即插即用模块资料

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

十小大

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值