深度学习—各种卷积

保持客气哈

已于 2023-03-01 22:38:42 修改

阅读量2.9k

点赞数 11

CC 4.0 BY-SA版权

分类专栏：机器学习/深度学习文章标签：深度学习计算机视觉 cnn

于 2023-03-01 15:51:15 首次发布

本文链接：https://blog.csdn.net/m0_47005029/article/details/129270974

文章详细介绍了卷积神经网络中的几种关键操作：卷积的基本概念，包括卷积核的作用和大小，以及padding如何保持输出尺寸；卷积核的通道作用，单通道和多通道卷积的差异；感受野的概念，它是影响特征提取的重要因素；转置卷积作为反卷积的误解及其实际作用；空洞卷积（膨胀卷积）用于扩大感受野而不损失分辨率；分组卷积和深度可分离卷积，特别是如何减少参数数量和提高运算效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.普通卷积

1.1 什么是卷积

卷积是指在滑动中提取特征的过程，我们先从一个小小的权重矩阵，也就是卷积核（kernel）开始，让它逐步在二维输入数据上“扫描”。卷积核“滑动”的同时，计算权重矩阵和扫描所得的数据矩阵的乘积，然后把结果汇总成一个输出像素，卷积的过程可以参考下图：
在这里插入图片描述

1.2 什么是padding

当卷积核尺寸大于 1 时，输出特征图的尺寸会小于输入图片尺寸。如果经过多次卷积，输出图片尺寸会不断减小。为了避免卷积之后图片尺寸变小，通常会在图片的外围进行填充(padding)，如下图为一个卷积核为3×3、有padding、Stride（每次阴影划过的格子数目）为1时的卷积过程：
在这里插入图片描述

蓝色部分为输入特征图，周围虚线部分为填充的padding，扫过的阴影部分为3*3大小的卷积核，绿色部分为输出特征图。

1.3 什么是卷积核

卷积是为了提取特征，选择不同的卷积核将会提取到不同的特征。卷积核定义了卷积的大小范围，在网络中代表感受野的大小，二维卷积核最常见的就是 3*3 的卷积核。一般情况下，卷积核越大，感受野越大，看到的图片信息越多，所获得的全局特征越好。但大的卷积核会导致计算量的暴增，计算性能也会降低

传统图像处理一般叫滤波器，而在深度学习中叫卷积核。

1.3.1 单通道模式

所谓的通道数，可以理解为有多少张二维矩阵图
在这里插入图片描述

1.3.2 多通道模式

多通道也很容易理解，最典型的就是处理彩色图片，一般有三个通道（RGB)：实际上，一个filter也可以包含多个矩阵，也即kernels，比如一个包含三个kernels的filter，对于输入是三个通道的图像：

在这里插入图片描述这里输入层是一个5 x 5 x 3矩阵，有3个通道，filters是3 x 3 x 3矩阵。首先，filters中的每个kernels分别应用于输入层中的三个通道，执行三次卷积，产生3个尺寸为3×3的通道。

然后，将这三个通道相加（逐个元素相加）以形成一个单个通道（3 x 3 x 1），该通道是使用filters（3 x 3 x 3矩阵）对输入层（5 x 5 x 3矩阵）进行卷积的结果：在这里插入图片描述

卷积核的channe

最低0.47元/天解锁文章

200万优质内容无限畅学