Multi-Branch Network for Color Image Denoising Using Dilated Convolution and Attention Mechanisms

本文链接：https://blog.csdn.net/qq_44750091/article/details/139849529

Multi-Branch Network for Color Image Denoising Using Dilated Convolution and Attention Mechanisms

使用扩张卷积和注意力机制进行彩色图像去噪的多分支网络

论文：Multi-Branch Network for Color Image Denoising Using Dilated Convolution and Attention Mechanisms

Abstract:

图像去噪被认为是计算机视觉任务中的一个不适定问题，它可以消除图像传感器中的附加噪声。最近，几种基于卷积神经网络的图像去噪方法取得了显着的进展。然而，由于图像内容的复杂性，简单的去噪网络很难恢复美观的图像。因此，本研究提出了一种多分支网络来提高去噪方法的性能。首先，所提出的网络是基于传统的自动编码器设计的，以从输入图像中学习多级上下文特征。随后，我们将两个模块集成到网络中，包括金字塔上下文模块（PCM）和残差瓶颈注意力模块（RBAM），以提取训练过程的显着信息。更具体地说，在网络的开头应用 PCM 来扩大感受野，并使用扩张卷积成功解决全局信息的丢失问题。同时，RBAM 被插入到编码器和解码器的中间，以消除退化的特征并减少不需要的伪影。最后，大量的实验结果证明了该方法在客观和主观性能方面优于最先进的深度学习方法。
Keywords: additive noise; attention mechanism; dilated convolution; multi-branch network; image denoising

Introduction

基于深度学习的图像去噪方法仍然存在一些问题：
(1)使用简单的网络来提高去噪任务的性能具有挑战性；
(2)全局信息被忽视；
(3) 由于未能全面处理降级特征而产生的不良产物。
为了解决这些问题，我们提出了一种基于传统自动编码器的多分支网络，以从噪声图像中学习多级上下文特征。此外，我们将金字塔上下文模块（PCM）和残留瓶颈注意力模块（RBAM）这两个模块集成到网络中，以在训练过程中选择显着信息。所提出网络的架构如图 1 所示。更具体地说，多分支网络具有使用跳跃连接组合多级上下文特征图的结构。事实证明，这种结构通过图像的结构分析可以有效地进行学习，并且可以稳健地消除图像中的加性噪声。此外，在网络的开头添加了PCM来处理全局信息丢失问题。它使用具有四种扩张率的并行扩张卷积运算，并以金字塔形式排列。最后但并非最不重要的一点是，我们将 RBAM 插入编码器和解码器的中间，以关注有价值的特征并忽略退化的特征，而不会引入过多的额外计算。使用各种定量指标评估所提出方法的性能。
综上所述，本文的主要贡献如下：
提出了一种有效提高图像去噪任务性能的多分支网络。
引入使用扩张卷积的 PCM 来扩大感受野并成功解决全局信息的丢失问题。
RBAM 旨在消除退化的功能并减少不需要的伪影。
在多个数据集上进行了综合实验，证明所提出的方法优于其他竞争方法。
在这里插入图片描述

Related Work

图像去噪的目的是从噪声图像 y 中恢复干净的图像 x。一般来说，退化模型被表述为 y = x + n，其中 n 表示加性噪声。图像去噪方法可以分为两大类：传统方法和深度学习方法。
传统方法可以灵活解决不同噪声水平的去噪问题。维纳滤波器已被用于去除高斯噪声，以解决均值滤波器的缺点，即容易受到高噪声水平图像过度平滑的影响。中值、加权中值和双边滤波器由于其边缘保留特性，无需特殊识别即可最大限度地减少加性噪声。总变化基于绝对图像梯度的积分，当图像包含大量细节时，绝对图像梯度会增加；特别是，它在保留图像边界的同时减少了噪声。总的来说，这些方法的性能取决于它们的优化算法，需要仔细选择参数，并且计算成本非常高。
最近，深度学习方法已成功处理图像去噪。最早的尝试之一是 DnCNN ，提出残差学习和批量归一化来实现端到端图像去噪。关于之前基于 CNN 的降噪方法，DRUNet是一种可靠的基于 CNN 的选项，它在解决不适定问题和开发强大的、适应性强的解决方案方面显示出了巨大的希望。此外，用于图像恢复的深度 CNN 降噪器 (IRCNN)使用已知的噪声水平来训练降噪器，然后利用该降噪器来估计噪声水平。为了提高去噪速度，FFDNet利用噪声水平和噪声图像作为基于 CNN 的网络的输入。RDUNet 是一种基于密集连接的分层网络的用于图像去噪的残差密集神经网络。最近，Transformer技术已应用于图像去噪。最具代表性的是用于图像去噪的 swin-transformer UNet（SUNet）和基于 swin-transformer 的图像恢复（SwinIR），采用 swin-transformer 作为主要模块，并将其集成到独特的去噪架构中以抑制加性噪音。此外，夏等人引入了一种用于图像恢复的高效扩散模型（DiffIR），其中包含紧凑的红外先验提取网络（CPEN）、动态红外变换器（DIRformer）和去噪网络。杨等人提出了一种基于线性插值的通用扩散模型的现实世界去噪方法。 MambaIR 使用残差状态空间块改进了普通 Mamba 模型，该块具有基于局部卷积的增强和用于图像去噪任务的通道关注。
简而言之，深度学习方法在一定程度上优于传统方法。然而，有很多方法可以提高去噪性能，特别是通过关注全局信息并使用高效的深度学习网络减少不需要的伪影。为此，我们设计了一个使用扩张卷积和注意力机制的多分支网络，可以丰富全局信息并消除退化特征。

Proposed Method

在本节中，我们结合两个特征提取模块（包括金字塔上下文模块（PCM）和残留瓶颈注意力模块（RBAM））展示多分支网络的架构。随后，还引入损失函数来优化所提出的网络。

Network Architecture

图 1 描述了所提出的网络的结构。首先，提出了一种基于传统自动编码器架构的用于图像去噪的多分支网络。其次，我们在网络的开头添加了 PCM 以提取有用的全局信息。最终，RBAM 被插入到编码器和解码器的中间，以过滤掉不需要的伪影。开头和结尾的卷积层帮助网络捕获图像及其特征之间的复杂映射。

Multi-Branch Network(多分支网络)

许多科学家最近采用基于卷积神经网络（CNN）的自动编码器结构来最小化加性噪声。这些方法大多数采用编码器-解码器框架来学习各种感受野的特征。然而，编码器-解码器框架中包含的重复上采样和下采样操作会导致纹理细节丢失，严重影响图像的恢复。为了解决这个问题，我们设计了一种基于传统自动编码器架构的多分支网络，用于图像去噪。该网络使用跳跃连接组合多级上下文特征图。事实证明，通过图像的结构分析可以轻松学习结构，并有效地去除图像中的加性噪声。所提出的网络在每个编码器-解码器卷积模块中具有三个尺度。我们在编码器中利用跨步卷积层进行下采样来压缩基本信息。在解码器中，我们应用调整大小卷积层进行上采样，并实现与其在编码器部分中的镜像相称的特征图大小。编码器和相应的解码器块之间使用跳跃连接，旨在重建通常在编码阶段丢失的特征和图像信息。但值得注意的是，它仅用于第一个分支。此外，由于在将噪声图像输入多分支网络之前提取的低级特征包含大量颜色信息，因此我们通过全局跳跃连接将它们与三个分支的最后一个特征图连接起来。随后，使用3×3卷积层融合先前提取的低级特征和无噪声的高级特征以生成输出图像。所提出的网络中使用 sigmoid 函数来引入非线性属性及其在 0 到 1 范围内的输出。此外，我们在训练网络之前采用归一化算子将输入图像重新缩放到 0 到 1 之间。这有助于稳定梯度下降步骤，允许网络使用更大的学习率并针对给定的学习率更快地收敛。训练过程完成后，输出图像将重新缩放回原始像素值以生成彩色图像。这些修改有望提高我们的网络在促进图像去噪和防止图像恢复过程中信息丢失方面的性能。

Pyramid Context Module(金字塔上下文模块)

如前所述，由于感受野扩展有限，全局信息通常会在基于自动编码器的模型中丢失。受[38]的启发，扩张卷积是卷积神经网络（CNN）中使用的一种滤波器扩展技术。在此技术中，滤波器的元件之间有间隙，间隙由膨胀率 (DR) 决定。扩张卷积有助于在不显着增加参数的情况下增加网络的感受野，从而使网络能够从输入数据中捕获更多的全局信息。**它在捕获大空间范围内的上下文信息很重要的任务中非常有用，特别是图像恢复。**因此，我们引入了使用扩张卷积的金字塔上下文模块（PCM），并将其插入到网络的开头以获得丰富的感受野信息，如图2所示。具体来说，我们采用并行扩张卷积来提取受 Atrous Spatial Pyramid Pooling (ASPP) 块 [39] 启发的多上下文特征。这使得网络能够学习上下文相关的信息。通过连接所有并行扩张卷积层的输出来丰富特征金字塔。由于扩张率不断上升（DR = 1、2、3 和 4），这些并行层的上下文逐渐变宽。然后，我们采用 1 × 1 卷积层来融合来自不同感受野的特征。此外，我们应用长跳跃连接来利用浅层特征的信息。最后，融合特征与输入特征相结合，使用逐元素加法运算获得输出。
在这里插入图片描述
图 2.金字塔上下文模块 (PCM) 的架构。

Residual Bottleneck Attention Module (RBAM)(残差瓶颈注意力模块)

在这里插入图片描述
尽管具有对称跳跃连接的自动编码器结构在图像去噪任务中表现出了良好的性能，但我们观察到最终结果中仍然存在一些不需要的伪影。造成此问题的一个合理原因是降级的特征从编码器传递到解码器。为了克服这个问题，我们利用广泛用于各种图像恢复任务的注意力机制进入编码器和解码器的中间。在本研究中，我们提出了一个由两个分支组成的 RBAM，即通道注意力模块 (CAM) 和空间注意力模块 (SAM)，以消除退化的特征，从而减少不需要的伪影，如图 3 所示。该模块受到[43]的启发，并在没有引入过多计算的情况下进行了证明。然而，与之前的方法不同，我们的 RBAM 最显着的变化之一是残差学习，它可以防止梯度消失问题并且对于训练处理来说是鲁棒的。

对于输入特征图 $F\in\mathbb{R}^{H_{i}\times W_{i}\times C_{i}}$ ，RBAM 生成注意力图 $M(F)\in\mathbb{R}^{H_{i}\times W_{i}\times C_{i}}$ 。这里， $H_i,W_i,\mathrm{和~}C_i$