空洞卷积的超详细解释

原创已于 2023-03-13 15:18:55 修改 · 3.2w 阅读

265 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #空洞卷积

于 2021-03-10 12:03:08 首次发布

算法同时被 2 个专栏收录

27 篇文章

订阅专栏

语义分割

5 篇文章

订阅专栏

什么是空洞卷积

Dilated/Atrous Convolution(中文叫做空洞卷积或者膨胀卷积) 或者是 Convolution with holes 从字面上就很好理解，是在标准的 convolution map 里注入空洞，以此来增加 reception field。相比原来的正常convolution，dilated convolution 多了一个 hyper-parameter 称之为 dilation rate，指的是kernel的间隔数量(e.g. 正常的 convolution 是 dilatation rate 1)。

下面分别是普通卷积和空洞卷积的图解例子
看上去，空洞卷积的操作十分简单，并没有与普通卷积差别太大。不过光理解他的工作原理还是远远不够的，要充分理解这个概念我们得重新审视卷积本身，并去了解他背后的设计直觉。

为什么需要空洞卷积

卷积的问题

在赢得其中一届ImageNet比赛里VGG网络的文章中，他最大的贡献并不是VGG网络本身，而是他对于卷积叠加的一个巧妙观察。
这里意思是 7 x 7 的卷积层的正则等效于 3 个 3 x 3 的卷积层的叠加。而这样的设计不仅可以大幅度的减少参数，其本身带有正则性质的 convolution map 能够更容易学一个 generlisable, expressive feature space。这也是现在绝大部分基于卷积的深层网络都在用小卷积核的原因。
主要问题有：
1. Up-sampling / pooling layer (e.g. bilinear interpolation) is deterministic. (a.k.a. not learnable)内部数据结构丢失；
2. 空间层级化信息丢失。
3. 小物体信息无法重建 (假设有四个pooling layer 则任何小于 2^4 = 16 pixel 的物体信息将理论上无法重建。)
在这样问题的存在下，语义分割问题一直处在瓶颈期无法再明显提高精度，而 dilated convolution 的设计就良好的避免了这些问题。
在图像分割领域，图像输入到CNN（典型的网络比如FCN[3]）中，FCN先像传统的CNN那样对图像做卷积再pooling，降低图像尺寸的同时增大感受野，但是由于图像分割预测是pixel-wise的输出，所以要将pooling后较小的图像尺寸upsampling到原始的图像尺寸进行预测（upsampling一般采用deconv反卷积操作，deconv可参见知乎答案如何理解深度学习中的deconvolution networks？），之前的pooling操作使得每个pixel预测都能看到较大感受野信息。因此图像分割FCN中有两个关键，一个是pooling减小图像尺寸增大感受野，另一个是upsampling扩大图像尺寸。在先减小再增大尺寸的过程中，肯定有一些信息损失掉了，那么能不能设计一种新的操作，不通过pooling也能有较大的感受野看到更多的信息呢？答案就是dilated conv。

空洞卷积的好处

扩大感受野：在deep net中为了增加感受野且降低计算量，总要进行降采样(pooling或s2/conv)，这样虽然可以增加感受野，但空间分辨率降低了。为了能不丢失分辨率（持怀疑态度），且仍然扩大感受野，可以使用空洞卷积。这在检测，分割任务中十分有用。一方面感受野大了可以检测分割大目标，另一方面分辨率高了可以精确定位目标。
捕获多尺度上下文信息：空洞卷积有一个参数可以设置dilation rate，具体含义就是在卷积核中填充dilation rate-1个0，因此，当设置不同dilation rate时，感受野就会不一样，也即获取了多尺度信息。多尺度信息在视觉任务中相当重要啊。

总结

其实说白了，就是池化可以扩大感受野，可以降低数据维度，可以减少计算量，但是会损失信息，而对于语义分割来说，这造成了发展瓶颈。而空洞卷积可以在扩大感受野的情况下不损失信息，但其实，空洞卷积的确没有损失信息，但是却没有用到所有的信息，下面我们就要讲空洞卷积的一些问题。

空洞卷积存在的问题

潜在问题 1：The Gridding Effect

空洞卷积的例子：
上图解释了空洞卷积存在的问题，从左到右属于top-bottom关系，即左图是最上层的图（其实还少了一张图，最右图是输入图像，向左依次是经过一次kernelsize=3,r=2的空洞卷积之后的结果，最左边的图应该是只有一个红点，这里没画。），三层卷积均为r=2的dilatedConv,可以看出最上层的红色像素的感受野为13。
上图中蓝色方块的深浅代表在某层进行空洞卷积的过程中，该方块参与卷积核运算的次数的多少。很明显，分布并不是均匀的，很多方块参与次数很少。而且很多方块根本没有参与运算（但并不是上述所有的白块都没有参与运算，因为这只是最高层一个点的感受野，它相邻的点的感受野会包含一部分上图的白块，但有一些方块是确实在整个卷积过程中没有参与）
而且，在使用同样尺寸的卷积核的多次卷积中，最终产生的像素点所依赖的输入像素点是不相邻的，是相互独立的。因为空洞卷积得到的某一层的结果中，邻近的像素是从相互独立的子集中卷积得到的，相互之间缺少依赖。这就导致：
局部信息丢失：由于空洞卷积的计算方式类似于棋盘格式，某一层得到的卷积结果，来自上一层的独立的集合，没有相互依赖，因此该层的卷积结果之间没有相关性，即局部信息丢失。
远距离获取的信息没有相关性：由于空洞卷积稀疏的采样输入信号，使得远距离卷积得到的信息之间没有相关性，影响分类结果。本来远距离获得信息是件好事，结果却没有相关性（也不能说没有，而是r越大越远越没有相关性，r越小越近越相关）。

潜在问题 2：Long-ranged information might be not relevant.

我们从 dilated convolution 的设计背景来看就能推测出这样的设计是用来获取 long-ranged information。然而光采用大 dilation rate 的信息或许只对一些大物体分割有效果，而对小物体来说可能则有弊无利了。 如何同时处理不同大小的物体的关系，则是设计好 dilated convolution 网络的关键。
总结：简单来说，就是空洞卷积虽然在参数不变的情况下保证了更大的感受野，但是对于一些很小的物体，本身就不要那么大的感受野来说，这是极度不友好的。

解决办法

对于上个 section 里提到的几个问题，图森组的文章对其提出了较好的解决的方法。他们设计了一个称之为 HDC 的设计结构。
HDC原则 (Hybrid Dilated Convolution) - 图森组
混合空洞卷积，在每一层使用不同的rate，把dilatioin rate 变成锯齿形式的也就是不同层之间的dilation不断变化。目标是最后的接收野全覆盖整个区域。
1.叠加卷积的 dilation rate 不能有大于1的公约数。比如 [2, 4, 6] 则不是一个好的三层卷，有些点永远不会被考虑。
2.将 dilation rate 设计成锯齿状结构。例如[1, 2, 3, 1, 2, 3] 循环结构，覆盖了所有点，如上图
3.需要满足一下这个式子，M<=K：

dilation rate是空洞卷积率，记为 ri，就是扩张倍数；K是卷积核尺寸
举例：对于常见的扩张卷积核大小K=3，如果r=[1,2,5] 则

此时M2=2 ≤ K=3 满足设计要求，设计的示意图如下：
上图解释一下，从左往右看，也就是从顶部往下部看，顶部进行size=5的空洞卷积，所用到的蓝点是根据r=2的空洞卷积卷过来的，还原回去就是中间的图，可以看到还是有一些方块是白色的，也就是没有参与运算的，别急，再看这些蓝方块是根据r=1的方块填充的，然后还原，得到最右图，可见所有的输入元素都被参与运算了，使得卷积后的某个像素考虑了感受野内所有的输入像素点，这样就不存在局部信息不完整以及输入像素点之间相关性不强等问题了。