计算机视觉 | 语义分割与Segmentation

MMSegmentation是OpenMMLab项目中的语义分割工具箱,基于PyTorch,提供统一基准平台和模块化设计,支持多种分割算法如PSPNet和DeepLab。它解决了全卷积网络的尺寸问题,采用升采样恢复原图分辨率,并引入空洞卷积等技术处理上下文信息。文章还提到了近期的前沿工作如SegFormer和Mask2Former。

前 言

        「MMSegmentation」 是一个基于 PyTorch 的语义分割开源工具箱。它是 OpenMMLab 项目的一部分。

        MMSegmentation v1.x 在 0.x 版本的基础上有了显著的提升,提供了更加灵活和功能丰富的体验。

主要特性

  • 统一的基准平台

        我们将各种各样的语义分割算法集成到了一个统一的工具箱,进行基准测试。

  • 模块化设计

        MMSegmentation 将分割框架解耦成不同的模块组件,通过组合不同的模块组件,用户可以便捷地构建自定义的分割模型。

  • 丰富的即插即用的算法和模型

        MMSegmentation 支持了众多主流的和最新的检测算法,例如 PSPNet,DeepLabV3,PSANet,DeepLabV3+ 等.

  • 速度快

        训练速度比其他语义分割代码库更快或者相当。

一、什么是语义分割 

任务:将图像按照物体的类别分割成不同的区域;

等价于:对每个像素进行分类。

 二、语义分割 vs 实例分割 vs 全景分割

三、语义分割基本思路

1、按颜色分割

 

2、逐像素分类 

全连接层卷积化

四、深度学习下的语义分割网络 

1、全卷积网络 

2、预测图的升采样 

问题:图像分类模型使用降采样层(步长卷积或池化)获得高层次特征,导致全卷积网络输出尺寸小于原图,而分割要求同尺寸输出;

解决方法:
对预测的分割图升采样,恢复原图分辨率,升采样方案

  • 双线性插值
  • 转置卷积: 可学习的升采样层

3、基于多层级特征的上采样

4、上下文信息 

5、空洞卷积与DeepLab系列算法

 

空间金字塔池化 

 6、语义分割算法总结

7、近期前沿的语义分割工作

1)SegFormer 

2)K-Net

3)MaskFormer

4)Mask2Former

5)SAM

五、语义分割模型的评估

1、真实图与预测图

 

 

计算机视觉语义分割(Semantic Segmentation)是计算机视觉领域的一个重要任务,它旨在对图像中的每个像素进行分类,为每个像素分配一个相应的类别标签,从而形成一张原始图像具有相同尺寸的“标签图”。这个过程可以帮助我们理解图像内容,例如在自动驾驶中识别道路、行人和障碍物,或者在医疗影像分析中区分病灶区域。 一个典型的语义分割实验流程包括以下几个步骤: 1. 数据准备:收集和标注大规模的图像数据集,如PASCAL VOC、COCO、Cityscapes等,这些数据集通常包含像素级的类别标签。 2. 模型选择:选择适合语义分割的深度学习模型,如FCN(Fully Convolutional Networks)、U-Net、DeepLab系列(包括V3, V3+, V4等)或Mask R-CNN等,这些模型利用卷积神经网络(CNN)的强大特征提取能力进行像素级别的预测。 3. 模型训练:使用预处理后的数据集,通过反向传播优化算法(如Adam、SGD)训练模型,目标是使模型在训练数据上的性能达到最优。 4. 结果评估:使用一些标准指标如IoU(Intersection over Union)、mIoU(mean Intersection over Union)来评估模型的性能,比较不同方法之间的效果。 5. 超参数调整优化:通过调整模型结构、优化器参数、学习率策略等,不断优化模型性能。 6. 部署和应用:将训练好的模型部署到实际应用中,如嵌入到机器人导航系统、工业质量控制、安防监控等领域。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值