1.普通卷积
1.1 什么是卷积
卷积是指在滑动中提取特征的过程,我们先从一个小小的权重矩阵,也就是 卷积核(kernel) 开始,让它逐步在二维输入数据上“扫描”。卷积核“滑动”的同时,计算权重矩阵和扫描所得的数据矩阵的乘积,然后把结果汇总成一个输出像素,卷积的过程可以参考下图:
1.2 什么是padding
当卷积核尺寸大于 1 时,输出特征图的尺寸会小于输入图片尺寸。如果经过多次卷积,输出图片尺寸会不断减小。为了避免卷积之后图片尺寸变小,通常会在图片的外围进行填充(padding),如下图为一个卷积核为3×3、有padding、Stride(每次阴影划过的格子数目)为1时的卷积过程:
蓝色部分为输入特征图,周围虚线部分为填充的padding,扫过的阴影部分为3*3大小的卷积核,绿色部分为输出特征图。
1.3 什么是卷积核
卷积是为了提取特征,选择不同的卷积核将会提取到不同的特征。卷积核定义了卷积的大小范围,在网络中代表感受野的大小,二维卷积核最常见的就是 3*3 的卷积核。一般情况下,卷积核越大,感受野越大,看到的图片信息越多,所获得的全局特征越好。但大的卷积核会导致计算量的暴增,计算性能也会降低
传统图像处理一般叫滤波器,而在深度学习中叫卷积核。
1.3.1 单通道模式
所谓的通道数,可以理解为有多少张二维矩阵图
1.3.2 多通道模式
多通道也很容易理解,最典型的就是处理彩色图片,一般有三个通道(RGB):实际上,一个filter也可以包含多个矩阵,也即kernels,比如一个包含三个kernels的filter,对于输入是三个通道的图像:
这里输入层是一个5 x 5 x 3矩阵,有3个通道,filters是3 x 3 x 3矩阵。首先,filters中的每个kernels分别应用于输入层中的三个通道,执行三次卷积,产生3个尺寸为3×3的通道。
然后,将这三个通道相加(逐个元素相加)以形成一个单个通道(3 x 3 x 1),该通道是使用filters(3 x 3 x 3矩阵)对输入层(5 x 5 x 3矩阵)进行卷积的结果:
卷积核的channe