CV：CNN（Convolutional Neural Networks，卷积神经网络）概述【(卷积层×n+池化层)×m+全连接层】【卷积层输出长宽维度：O= (I+2P-F)/S+1、通道数：K 】

本文链接：https://blog.csdn.net/u013250861/article/details/111357292

本文详细介绍了卷积神经网络（CNN）的原理与组成，包括输入层、卷积层、激活函数、池化层、全连接层等关键组件。讨论了卷积层的感受野、过滤器、参数数量计算，以及CNN与全连接层的区别。此外，还涵盖了CNN在Keras中的实现、训练过程、权值更新方法、优缺点以及典型CNN模型，如LeNet和AlexNet。文章强调了Fine-Tuning的重要性，并提供了CNN参数优化的建议。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

深度学习-神经网络：CNN（Convolutional Neural Networks，卷积神经网络）

一、概述
二、CNN的组成
三、CNN in Keras
四、CNN的训练过程
1、前向传播过程
2、反向传播过程
3、卷积神经网络的权值更新
- 3.1 卷积层的权值更新
- 3.2 全连接层的权值更新过程
五、卷积神经网络之优缺点
- 1、CNN的优点
- 2、CNN的缺点
六、典型CNN
七、Fine-Tuning
八、卷积神经网络的常用框架
九、CNN的参数优化方法
十、CNN经典结构：VGG案例-cifar100数据集【Tensorflow2】

一、概述

卷积神经网络（Convolutional Neural Networks / CNNs / ConvNets）与普通神经网络非常相似，它们都由具有可学习的权重和偏置常量(biases)的神经元组成。每个神经元都接收一些输入，并做一些点积计算，输出是每个分类的分数，全连接神经网络(DNN)里的一些计算技巧到这里依旧适用。
CNN（convolutional neural network），主要就是通过一个个的filter，不断地提取特征，从局部的特征到总体的特征，从而进行图像识别等等功能。
一个卷积神经网络由很多层组成，它们的输入是三维的，输出也是三维的，有的层有参数，有的层不需要参数。
卷积神经网络与其他神经网络的区别：卷积神经网络默认输入是图像，可以让我们把特定的性质编码入网络结构，使是我们的前馈函数更加有效率，并减少了大量参数。
卷积神经网络(CNN)结构由以下层组成：
- 输入层
- 卷积层(Convolutional layer)：卷积神经网路中每层卷积层由若干卷积单元组成，每个卷积单元的参数都是通过反向传播算法优化得到的。卷积运算的目的是提取输入的不同特征，第一层卷积层可能只能提取一些低级的特征如边缘、线条和角等层级，更多层的网络能从低级特征中迭代提取更复杂的特征。
- 激活函数：
  - Sigmoid：解析值介于0和1之间
  - TanH：将值解析为介于-1和1之间
  - ReLU(Rectified Linear Units)：如果值为负，则变为0，否则保持不变
- 池化层(Pooling layer)：通常在卷积层之后会得到维度很大的特征，将特征切成几个区域，取其最大值或平均值，得到新的、维度较小的特征。
- 全连接层(Fully-Connected layer)：把所有局部特征结合变成全局特征，用来计算最后每一类的得分。

在这里插入图片描述

卷积神经网络各层应用实例：
卷积网络在本质上是一种输入到输出的映射，它能够学习大量的输入与输出之间的映射关系，而不需要任何输入和输出之间的精确的数学表达式，只要用已知的模式对卷积网络加以训练，网络就具有输入输出对之间的映射能力。
CNN一个非常重要的特点就是头重脚轻（越往输入权值越小，越往输出权值越多），呈现出一个倒三角的形态，这就很好地避免了BP神经网络中反向传播的时候梯度损失得太快。
卷积神经网络CNN主要用来识别位移、缩放及其他形式扭曲不变性的二维图形。由于CNN的特征检测层通过训练数据进行学习，所以在使用CNN时，避免了显式的特征抽取，而隐式地从训练数据中进行学习；再者由于同一特征映射面上的神经元权值相同，所以网络可以并行学习，这也是卷积网络相对于神经元彼此相连网络的一大优势。卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性，其布局更接近于实际的生物神经网络，权值共享降低了网络的复杂性，特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度。

二、CNN的组成

1、输入层

具有三维体积的神经元(3D volumes of neurons)：卷积神经网络利用输入是图片的特点，把神经元设计成三个维度： width, height, depth(注意这个depth不是神经网络的深度，而是用来描述神经元的) 。比如输入的图片大小是 7 × 7 × 3 (rgb)，那么输入神经元就也具有 7×7×3 的维度。

2、卷积层(Convolution)

全连接神经网络把输入层和隐含层进行“全连接(Full Connected)“的设计。从计算的角度来讲，相对较小的图像从整幅图像中计算特征是可行的。但是，如果是更大的图像，要通过这种全联通网络的这种方法来学习整幅图像上的特征，从计算角度而言，将变得非常耗时。
卷积层的卷积操作解决全连接神经网络计算量庞大的问题：对卷积核和输入单元间的连接加以限制：每个卷积核仅仅只能连接输入单元的一部分。
卷积层的神经元也可以是三维的，所以也具有深度。一个神经元可以包含一系列过滤器(filter)，每个过滤器(filter)训练一个深度，某个神经元包含几个过滤器(filter)，该神经元的输出单元就具有多少深度。

2.1 感受野(Receptive Field)

在卷积神经网络中，感受野(Receptive Field)的定义是卷积神经网络每一层输出的特征图(Feature Map)上的像素点在输入图片上映射的区域大小。通俗点的解释是，特征图上的一个点对应输入图上的区域。
The receptive field is defined as the region in the input space that a particular CNN’s feature is looking at (i.e. be affected by).
卷积神经网络中，越深层的神经元看到的输入区域越大，如下图所示，kernel size 均为3×3，stride均为1，绿色标记的是Layer2 每个神经元看到的区域，黄色标记的是Layer3 看到的区域，具体地，Layer2每个神经元可看到Layer1 上 3×3 大小的区域，Layer3 每个神经元看到Layer2 上 3×3 大小的区域，该区域可以又看到Layer1 上 5×5 大小的区域。
所以，感受野是个相对概念，某层卷积层的特征图(Feature Map)上的元素看到前面各个不同卷积层上的区域范围是不同的，通常在不特殊指定的情况下，感受野指的是看到输入图像上的区域。
感受野大小的计算是个递推公式。参考：彻底搞懂感受野的含义与计算

2.2 过滤器(Filter)/卷积核(Kernel)

过滤器(Filter)可以由一层卷积核(Kernel)组成【输入数据只有一个通道】，也可以由多层卷积核(Kernel)组成【输入数据有多个通道，每个通道用一个卷积核来进行卷积操作】；
每层卷积层有n个过滤器(Filter)，那么该层卷积层就会输出几个特征图(Feature Map)。即： 一个过滤器就对应一层特征图；
每个过滤器(Filter)的深度（Kernel/卷积核数量）的设定要与输入数据的深度（Channel/通道数量）一致。
几个小的卷积核(例如3×3)生成的几个特征图(Feature Map)叠加(stack)在一起，相比较一个大的卷积核(例如7×7)生成的1个特征图(Feature Map)来说，与原图的连通性不变，但是却大大降低了参数的个数，从而降低了计算的复杂度！这就是深度学习，喜欢小而深，厌恶大而浅。这里指的是每层卷积层中卷积核的大小和个数。
卷积核大小通常是奇数。

2.3 过滤器(Filter)对单通道(channels)图片的卷积操作

每一个过滤器(Filter)中的每个元素就是该神经网络的待求参数。

在这里插入图片描述

2.4 过滤器(Filter)对多通道(channels)图片的卷积操作

在这里插入图片描述

彩色图像，一般都是RGB三个通道(channels)的，因此输入数据的维度一般有三个：(长，宽，通道)。
比如一个像素为 $7 \times 7$ 的RGB图片，维度就是 $(7, 7, 3)$ 。
我们的过滤器(Filter)的维度可以设为 $(3, 3, 3)$ 、 $(4, 4, 3)$ 或者 $(5, 5, 3)$ ，它的最后一维要跟输入的channel维度一致。
也就是说每个过滤器(Filter)由3层卷积核(Kernel)组成。

在这里插入图片描述

上图中的输入图像是 $(7, 7, 3)$ ，filter有2个(Filter W0、Filter W1)，这两个Filter的大小均为 $(3, 3, 3)$ ，步幅为2，则得到的输出为 $(3, 3, 2)$ ，最后一个维度 $2$ 表示由 $2$ 个filter生成的 $2$ 个特征图(Feature Map)。

2.5 神经元

当我们的输入是一个(7×7)的图像，
那么我们如果想获得两个特征，我们使用(3×3)的两个过滤器(Filter)即可，这样经过一次卷积以后，得到两个(5×5)的特征图，
那么该层卷积层的神经元的个数就是50个(5×5×2)。原因在于像素的个数就是神经元的个数。

2.6 空间排列(Spatial arrangement)

一层卷积层的输出单元(由多个Feature Map组成)的大小有以下三个量控制：深度(depth)、步幅(stride)、补零(zero-padding)。

深度(depth) : 顾名思义，它控制输出单元的深度，也就是Filter的个数，连接同一块区域的神经元个数。又名：depth column
步幅(stride)：每次移动的步长；它控制在同一深度的相邻两个隐含单元与他们相连接的输入区域的距离。如果步幅很小（比如 stride = 1）的话，相邻隐含单元的输入区域的重叠部分会很多; 步幅很大则重叠区域变少。在Pytorch中stride可以是int或tuple，如果是tuple的话，比如 $(1, 2)$ 表示行步长为1，列步长为2；
补零(zero-padding) ：我们可以通过在输入单元周围补零来改变输入单元整体大小，从而控制输出单元的空间大小。

2.7 每层卷积层参数数量

在这里插入图片描述

如上图中的过滤器 Filter $W_0$ 、Filter $W_1$
- $k \times k$ : kernel size： $k \times k = 3 \times 3$
- $I$ : number of input channels： $I = 3$
- $O$ : number of output channels： $O = 2$
该层卷积层的参数的总数量 = $(k \times k \times I) \times O = 3 \times 3 \times 3 \times 2 = 54$

2.8 每层卷积层的输入维度、输出维度

输入：三维数据，(宽 $w_{in}$ ×高 $h_{in}$ ×深 $d_{in}$ )
每层卷积层的参数：
- 感受野(receptive field)的大小 $f$ （kernel_size）
- 过滤器(Filter)的数量(决定输出单元的深度) $k$ （out_channels）
- 步幅(Stride) $s$
- 补零(zero-padding)的数量 $p$
输出：三维单元，(宽 $w_{out}$ ×高 $h_{out}$ ×深 $d_{out}$ )，其中各维度大小为：
- $w_{out}=\cfrac{w_{in}+2p-f}{s}+1$
- $h_{out}=\cfrac{h_{in}+2p-f}{s}+1$
- $d_{out}=k$

2.9 卷积层与全连接神经网络的区别

在这里插入图片描述

3、激活函数

激活函数（activation function）运行时激活神经网络中某一部分神经元，将激活信息向后传入下一层的神经网络。神经网络之所以能解决非线性问题，本质上就是激活函数加入了非线性因素，弥补了线性模型的表达力，把“激活的神经元的特征”通过函数保留并映射到下一层。
激活函数不会更改输入数据的维度，也就是输入和输出的维度是相同的。
典型激活函数：Sigmoid函数、TanH函数、ReLU函数

4、下采样层(Subsampling)/池化层(Pooling Layer)

池化(pool)即下采样(downsamples)，目的是为了减小特征图(Feature Map)，保留主要的特征同时减少参数和计算量，防止过拟合，提高模型泛化能力。

池化操作对每个深度切片独立，规模一般为 $2 \times 2$ ，相对于卷积层进行卷积运算，池化层进行的运算一般有以下几种：

最大池化(Max Pooling)。取4个点的最大值。这是最常用的池化方法。
均值池化(Mean Pooling)。取4个点的均值。
高斯池化。借鉴高斯模糊的方法。不常用。
可训练池化。训练函数 $f$ ，接受4个点为输入，出入1个点。不常用。

4.1 2×2 池化层

最常见的池化层是规模为 $2 \times 2$ ，步幅为 $2$ ，对输入的每个深度切片进行下采样。每个MAX操作对四个数进行，如下图所示：

在这里插入图片描述

池化操作将保存深度大小不变。
如果池化层的输入单元大小不是二的整数倍，一般采取边缘补零（zero-padding）的方式补成2的倍数，然后再池化。

4.2 每层池化层的输入、输出、参数

输入：三维数据，(宽 $w_{in}$ ×高 $h_{in}$ ×深 $d_{in}$ )
每层池化层的参数(hyperparameters)：
- 感受野(receptive field)的大小 $f$
- 步幅(Stride) $s$
输出：三维单元，(宽 $w_{out}$ ×高 $h_{out}$ ×深 $d_{out}$ )，其中：
- $w_{out}=\cfrac{w_{in}-f}{s}$
- $h_{out}=\cfrac{h_{in}-f}{s}+1$
- $d_{out}=d_{in}$

5、上采样层(Upsampling)

在这里插入图片描述

6、全连接层(Fully-connected layer)

全连接层和卷积层可以相互转换：

对于任意一个卷积层，要把它变成全连接层只需要把权重变成一个巨大的矩阵，其中大部分都是0 除了一些特定区块（因为局部感知），而且好多区块的权值还相同（由于权重共享）。
相反地，对于任何一个全连接层也可以变为卷积层。比如一个 $k = 4096$ 的全连接层，输入层大小为 $7 \times 7 \times 512$ ，它可以等效为一个 $f = 7, p = 0, s = 1, k = 4096$ 的卷积层。换言之，我们把 filter size 正好设置为整个输入层大小。

7、ReLU层

在这里插入图片描述

三、CNN in Keras

在这里插入图片描述

四、CNN的训练过程

同一般机器学习算法一样，先定义Loss function，衡量和实际结果之间差距。找到最小化损失函数的W和b，
CNN中用的算法是SGD（随机梯度下降）。
卷积神经网络的训练过程分为两个阶段。第一个阶段是数据由低层次向高层次传播的阶段，即前向传播阶段。另外一个阶段是，当前向传播得出的结果与预期不相符时，将误差从高层次向底层次进行传播训练的阶段，即反向传播阶段。

网络进行权值的初始化；
输入数据经过卷积层、下采样层、全连接层的向前传播得到输出值；
求出网络的输出值与目标值之间的误差；
当误差大于我们的期望值时，将误差传回网络中，依次求得全连接层，下采样层，卷积层的误差。各层的误差可以理解为对于网络的总误差，网络应承担多少；当误差等于或小于我们的期望值时，结束训练。
根据求得误差进行权值更新。然后在进入到第二步。

1、前向传播过程

在前向传播过程中，输入的图形数据经过多层卷积层的卷积和池化处理，提出特征向量，将特征向量传入全连接层中，得出分类识别的结果。当输出的结果与我们的期望值相符时，输出结果。

1.1 卷积层的向前传播过程

卷积层的向前传播过程是，通过卷积核对输入数据进行卷积操作得到卷积操作。数据在实际的网络中的计算过程，我们以图3-4为例，介绍卷积层的向前传播过程。其中一个输入为15个神经元的图片，卷积核为2×2×1的网络，即卷积核的权值为W1，W2，W3，W4。那么卷积核对于输入数据的卷积过程，如下图4-2所示。卷积核采用步长为1的卷积方式，卷积整个输入图片，形成了局部感受野，然后与其进行卷积算法，即权值矩阵与图片的特征值进行加权和（再加上一个偏置量），然后通过激活函数得到输出。
在这里插入图片描述
图片深度为2时，卷积层的向前传播过程如图4-3所示。输入的图片的深度为4×4×2，卷积核为2×2×2，向前传播过程为，求得第一层的数据与卷积核的第一层的权值的加权和，然后再求得第二层的数据与卷积核的第二层的权值的加权和，两层的加权和相加得到网络的输出。
在这里插入图片描述

1.2 下采样层的向前传播过程

上一层（卷积层）提取的特征作为输入传到下采样层，通过下采样层的池化操作，降低数据的维度，可以避免过拟合。如图4-4中为常见的池化方式示意。最大池化方法也就是选取特征图中的最大值。均值池化则是求出特征图的平均值。随机池化方法则是先求出所有的特征值出现在该特征图中的概率，然后在来随机选取其中的一个概率作为该特征图的特征值，其中概率越大的选择的几率越大。

在这里插入图片描述

1.3 全连接层的向前传播过程

特征图进过卷积层和下采样层的特征提取之后，将提取出来的特征传到全连接层中，通过全连接层，进行分类，获得分类模型，得到最后的结果。下图为一个三层的全连接层。假设卷积神经网络中，传入全连接层的特征为x1,x2。则其在全连接层中的向前传播过程如图所示。第一层全连接层有3个神经元y1,y2,y3。这三个节点的权值矩阵为W，其中b1,b2,b3分别为节点y1,y2,y3的偏置量。可以看出，在全连接层中，参数的个数=全连接层中节点的个数×输入的特征的个数+节点的个数（偏置量）。其向前传递过程具体如图所示，得到输出矩阵后，经过激励函数f(y)的激活，传入下一层。
在这里插入图片描述

2、反向传播过程

当卷积神经网络输出的结果与我们的期望值不相符时，则进行反向传播过程。求出结果与期望值的误差，再将误差一层一层的返回，计算出每一层的误差，然后进行权值更新。该过程的主要目的是通过训练样本和期望值来调整网络权值。误差的传递过程可以这样来理解，首先，数据从输入层到输出层，期间经过了卷积层，下采样层，全连接层，而数据在各层之间传递的过程中难免会造成数据的损失，则也就导致了误差的产生。而每一层造成的误差值是不一样的，所以当我们求出网络的总误差之后，需要将误差传入网络中，求得该各层对于总的误差应该承担多少比重。
反向传播的训练过程的第一步为计算出网络总的误差：求出输出层n的输出a(n)与目标值y之间为误差。计算公式为：

在这里插入图片描述
其中，为激励函数的导函数的值。

2.1 全连接层之间的误差传递

求出网络的总差之后，进行反向传播过程，将误差传入输出层的上一层全连接层，求出在该层中，产生了多少误差。而网络的误差又是由组成该网络的神经元所造成的，所以我们要求出每个神经元在网络中的误差。求上一层的误差，需要找出上一层中哪些节点与该输出层连接，然后用误差乘以节点的权值，求得每个节点的误差,具体如图所示：
在这里插入图片描述

2.2 当前层为下采样层，求上一层的误差

在下采样层中，根据采用的池化方法，把误差传入到上一层。下采样层如果采用的是最大池化（max-pooling）的方法，则直接把误差传到上一层连接的节点中。果采用的是均值池化（mean pooling）的方法，误差则是均匀的分布到上一层的网络中。另外在下采样层中，是不需要进行权值更新的，只需要正确的传递所有的误差到上一层。

2.3 当前层为卷积层，求上一层的误差

卷积层中采用的是局部连接的方式，和全连接层的误差传递方式不同，在卷积层中，误差的传递也是依靠卷积核进行传递的。在误差传递的过程，我们需要通过卷积核找到卷积层和上一层的连接节点。求卷积层的上一层的误差的过程为：先对卷积层误差进行一层全零填充，然后将卷积层进行一百八十度旋转，再用旋转后的卷积核卷积填充过程的误差矩阵，并得到了上一层的误差。如图4-7为卷积层的误差传递过程。图右上方为卷积层的向前卷积过程，而右下方为卷积层的误差传递过程。从图中可以看出，误差的卷积过程正好是沿着向前传播的过程，将误差传到了上一层。
在这里插入图片描述

3、卷积神经网络的权值更新

3.1 卷积层的权值更新

卷积层的误差更新过程为：将误差矩阵当做卷积核，卷积输入的特征图，并得到了权值的偏差矩阵，然后与原先的卷积核的权值相加，并得到了更新后的卷积核。如图4-8，图中可以看出，该卷积方式的权值连接正好和向前传播中权值的连接是一致的。

在这里插入图片描述

3.2 全连接层的权值更新过程

全连接层中的权值更新过程为：

求出权值的偏导数值：学习速率乘以激励函数的倒数乘以输入值；
原先的权值加上偏导值，得到新的权值矩阵。具体的过程如图4-9所示（图中的激活函数为Sigmoid函数）。

五、卷积神经网络之优缺点

1、CNN的优点

共享卷积核，对高维数据处理无压力
无需手动选取特征，训练好权重，即得特征分类效果好

2、CNN的缺点

需要调参，需要大样本量，训练最好要GPU
物理含义不明确（也就说，我们并不知道每个卷积层到底提取到的是什么特征，而且神经网络本身就是一种难以解释的“黑箱模型”）

六、典型CNN

LeNet，这是最早用于数字识别的CNN
AlexNet， 2012 ILSVRC比赛远超第2名的CNN，比
LeNet更深，用多层小卷积层叠加替换单大卷积层。
ZF Net， 2013 ILSVRC比赛冠军
GoogLeNet， 2014 ILSVRC比赛冠军
VGGNet， 2014 ILSVRC比赛中的模型，图像识别略差于GoogLeNet，但是在很多图像转化学习问题(比如object detection)上效果奇好

七、Fine-Tuning

fine-tuning就是使用已用于其他目标、预训练好模型的权重或者部分权重，作为初始值开始训练。
那为什么我们不用随机选取选几个数作为权重初始值？原因很简单，第一，自己从头训练卷积神经网络容易出现问题；第二，fine-tuning能很快收敛到一个较理想的状态，省时又省心。
fine-tuning的具体做法是？
- 复用相同层的权重，新定义层取随机权重初始值
- 调大新定义层的的学习率，调小复用层学习率