语义分割基础篇 — DeepLabV3+(一)

本文介绍了语义分割领域的经典算法DeepLabV3+,详细阐述了其优化的ASPP模块、解码结构以及深度可分离卷积的应用。提供了从数据集标注到模型训练、推理的步骤,适合深度学习初学者实践。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

语义分割 - DeepLabV3+(一)



前言

Deeplab系列也是分割领域的经典算法,Deeplabv3+则是这个系列的最新算法,充分融合了前面几个版本的优点,很适合大家上手。本文会详细介绍如何使用DeepLabv3+训练自己的数据集,很适合初学者上手。

原文链接:https://arxiv.org/pdf/1802.02611.pdf
代码链接:https://github.com/bubbliiiing/deeplabv3-plus-pytorch
(注:代码来源于github上的bubbliiiing大神,上一篇unet的文章也是使用的他的项目。整个项目注释非常详细,对初学者非常友好)
实验环境:linux torch1.12.0+cu116、windows torch1.9.0+cu102;其他版本应该也没有问题。


一、概述

1.1摘要

在深度神经网络中,空间金字塔池化模块或编码-解码结构常被用于语义分割任务。前者通过在不同速率和多个有效视场范围内对输入特征进行过滤器或池化操作探查,能够编码多尺度上下文信息;而后者网络则通过逐步恢复空间信息来捕获更锐利的物体边界。在本工作中,我们提议结合这两种方法的优点。具体来说,我们提出的模型DeepLabv3+在DeepLabv3的基础上进行了扩展,通过添加一个简单且有效的解码模块,特别是在物体边界处细化分割结果。我们进一步探索了Xception模型,并将深度可分离卷积应用于空洞空间金字塔池化和解码模块中,从而构建出更快更强的编码-解码网络。我们在PASCAL VOC 2012和Cityscapes数据集上验证了所提模型的有效性,在没有任何后处理的情况下,分别达到了89.0%和82.1%的测试集性能水平。

1.2论文简介

Deeplabv3+与原来的Deeplab系列算法相比,创新点主要体现在三个方面:
(1) ASPP优化:在原有Deeplab系列的基础上,Deeplabv3+进一步优化了ASPP模块,通过采用不同扩张率(dilation rate)的空洞卷积(atrous convolution)并行提取多尺度上下文信息,同时引入全局上下文池化层,从而能够在不降低分辨率的前提下,有效捕获图像中不同大小的目标和上下文特征。
(2) 编码-解码结构改进:Deeplabv3+在维持了编码器强大的特征提取能力之外,还新增了一个简洁而高效的解码器模块。该解码器通过与编码器不同层次的特征进行跳跃连接(skip connections),能够逐步恢复空间信息,特别是在物体边界处进行细化处理,从而提高分割结果的精确度,特别是对于边界清晰度的提升显著。
(3)借鉴深度可分离卷积:模型借鉴了Xception模型中的深度可分离卷积(depthwise separable convolution)思想,将其应用于ASPP模块和解码器模块中,大幅减少了模型的计算复杂性和参数量,既提高了运算速度,又保证了模型的分割性能。
在这里插入图片描述

二、使用步骤

1.下载项目包

使用git或者download zip都行。

2.自定义数据集

(1) 安装labelme,选择Edit–>Create Polygons,然后进行标注。下载labelme时,版本最好一致。否则在进行第二步时会报错。(标注图像版本没有要求,只是在将json转图片的时候会有问题)

pip install labelme==3.16.7
labelme

在这里插入图片描述这个数据集是一个火灾数据集,红色多边形区域是烟熏区域,绿色线段则表示裂缝区域。在这里对于一些裂缝、细线等,我们可以使用Create Line的标注方式,然后在生成的mask图像中,对该像素值进行膨胀即可。

(2)自定义数据集
将标注好的数据放在 datasets/before
在这里插入图片描述然后修改json_to_dataset.py第23行,将classes中修改成自己的标签名称,第一个类别__background__不变,后面依次修改成自己的标签,再运行该文件(此处为了方便使用1,2表示类别)。

if __name__ == '__main__':
    jpgs_path   = "datasets/JPEGImages"
    pngs_path   = "datasets/SegmentationClass"
    # 修改classes 
    classes     = ["_background_","1","2"]

然后datasets/JPEGImages和datasets/SegmentationClass中会生成对应的原图和label文件。
在这里插入图片描述

然后生成对应的train.txt和val.txt

import os
import random 
imgdir="datasets/SegmentationClass"
imglist=os.listdir(imgdir)
imglist = [imgname[:-4]+'\n' for imgname in imglist]
train_sample = random.sample(imglist, int(0.8* len(imglist)))
with open("datasets/train.txt", 'w') as f:
    f.writelines(train_sample)
valid_sample = []
for name in imglist:
    if name not in train_sample:
        valid_sample.append(name)
with open("datasets/val.txt", 'w') as f:
    f.writelines(valid_sample)

最后数据集格式为
在这里插入图片描述

3.模型训练

训练时,只需要修改train.py中的几处就行了,其中注释非常详细,基本不用修改,需要注意以下几点
(1)num_classes = 分割的类别+1,因为0为背景
(2)该项目并不是原本Unet模型,其backbone为vgg或者resnet50,如果需要model_path,则需要去github上下载对应的权重
(3)训练时需要修改以下几处数据集路径(此处尤为重要)。
train.py中

    #   数据集路径
    #------------------------------#
    VOCdevkit_path  = 'datasets'
    #   读取数据集对应的txt
    #---------------------------#
    with open(os.path.join(VOCdevkit_path, "train.txt"),"r") as f:
        train_lines = f.readlines()
    with open(os.path.join(VOCdevkit_path, "val.txt"),"r") as f:
        val_lines = f.readlines()

dataloader.py中

        #   从文件中读取图像
        #-------------------------------#
        jpg         = Image.open(os.path.join(os.path.join(self.dataset_path, "JPEGImages"), name + ".jpg"))
        png         = Image.open(os.path.join(os.path.join(self.dataset_path, "SegmentationClass"), name + ".png"))

然后就可以进行训练
在这里插入图片描述

4.模型推理

推理时,只需要修改predict.py和unet.py中的一些参数,注释非常详细,按需求修改即可
请添加图片描述
请添加图片描述

三、后续内容

有改进需求或者发论文需求的同学,可订阅本人的《手把手复现语义分割算法》专栏。该专栏主要是针对知网上核心级别,影响因子1.0以上的期刊论文进行复现。非常适合初学者,或者急需写文章却没有头绪的小伙伴。订阅价格很便宜,一顿午饭钱,就可以帮你节省数周甚至数月时间。希望大家多多关注,相互讨论,相互进步。

### DeepLabV3 语义分割使用教程和实现方法 #### 实现框架选择 对于构建语义分割平台,可以选择PyTorch或TensorFlow作为开发环境。前者提供了简洁易懂的API接口,后者则拥有更广泛的社区支持和技术文档[^2]。 #### DeeplabV3+架构详解 DeeplabV3+是种先进的语义分割网络结构,在保持高分辨率的同时能够捕捉图像中的细节特征。其核心组件为空洞卷积(也称为膨胀卷积),这使得模型可以在不增加参数量的情况下扩大感受野范围;另外还引入了ASPP模块来增强多尺度上下文信息的学习能力[^1]。 #### 数据准备与预处理 为了训练有效的语义分割模型,高质量的数据集至关重要。可以采用`labelme`这样的工具来进行自定义类别的标注工作,并将其转化为适合输入给定神经网络的形式。如果需要调整图片大小,则可以通过编写简单的脚本来完成这操作[^4]: ```python import cv2 from pathlib import Path def resize_images(input_dir, output_dir, target_size=(395, 700)): input_path = Path(input_dir) output_path = Path(output_dir) if not output_path.exists(): output_path.mkdir(parents=True) for img_file in input_path.glob('*.jpg'): img = cv2.imread(str(img_file)) resized_img = cv2.resize(img, dsize=target_size) save_path = str(output_path / img_file.name) cv2.imwrite(save_path, resized_img) resize_images('./input_images', './output_resized') ``` 此代码片段展示了如何利用Python库OpenCV批量改变指定文件夹内所有JPEG格式照片的尺寸并保存至另位置。 #### 训练过程概述 当准备好数据后便可以着手于实际的模型训练阶段。以PyTorch为例,整个流程大致如下所示: - 加载已有的预训练权重(如ResNet),以便加速收敛速度; - 定义损失函数(通常是交叉熵损失)以及优化器; - 将训练样本送入GPU/CPU设备中进行前向传播计算预测结果; - 反馈误差信号更新权值直至满足停止条件为止。 #### 测试评估环节 经过充分迭代后的模型应当能够在验证集上取得较好的表现。此时可进步测试未知样例的效果并通过可视化手段直观展示出来。常用的性能度量标准包括但不限于平均交并比(mean Intersection over Union)[^3]。
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值