图像语义分割 FCN图像分割网络详解
0、介绍
1、VGG16网络结构
2、转置卷积
采用转置卷积的目的就是实现上采样,不过在FCN代码中采用的是双线性插值法
查看另一篇博文:
转置卷积部分
3、FCN-32S、FCN-16S,FCN-8S网络结构
FCN-16S网络使用到了Maxpool4 feature map作为融合特征 ↑↑↑↑
FCN-16S网络使用到了Maxpool4 feature map与Maxpool3 feature map作为融合特征 ↑↑↑↑
网络中的使用转置卷积的模块,在代码中实际采用的上采样模块实现
4、损失函数
损失函数采用Cross Entropy Loss
5、膨胀卷积
在进行语义分割过程中,通常需要分类网络作为网络的backbone进行一系列的下采样,再通过一系列的上采样还原回图像的原始尺寸;存在问题是在下采样过程中,如果采样倍率过大则对还原回原图是有很大影响的
膨胀卷积的优点:
- 增大感受野
- 保持原输入特征图的W、H
特征图中像素间的间隔数=dilation rate - 1
上图为空洞卷积的实现,参数填写为padding=dilation,dilation=dilation
即:dilation=dilation为空洞数
如果想保证输入特征图尺寸等于输出特征图尺寸,则需要padding=dilation,dilation=dilation
膨胀卷积的缺陷问题:
Gridding Effect问题↑↑↑↑↑
避免Gridding Effect的策略是:不要连续的使用膨胀卷积或将膨胀因子设置成锯齿结构
将膨胀因子设置成锯齿结构↑↑↑↑↑
6、FCN(Backbone-ResNet-50)
6.1 项目框架
6.2 ResNet50网络结构
6.3 FCN(Backbone-ResNet-50)网络结构
搭建主网络
make_bolck
bottlneck
6.4 FCN(Backbone-ResNet-50)模型搭建流程演示图
7、评价指标
上图中假设类别为n_class=4(包含背景类别)
第一步:假定真实的GT标签为GT=[0,1,1,2,2,3,1,2,3]
真是标签列表索引为GT_inds=[0,1,2,3,4,5,6,7,8,9]
第二步:将类别数n_class x GT + Predict (得到对应像素在混淆矩阵展平后的位置)
得到location=[1,5,5,10,11,15,5,10,15]
第三步:在用统计直方图的方法统计location中每一个数值出现的频次
torch.bincount(inds, minlength=n**2).reshape(n, n)