CascadePSP论文解读-CSDN博客

本文深入解读"CascadePSP"论文，该模型针对高分辨率图像分割问题，通过全局和局部修正实现精细化分割。模型采用多级Refinement Module（RM）结构，结合ResNet和Pyramid Pooling Module进行特征提取与融合。训练过程分为全局和局部两步，有效提升分割精度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

"CascadePSP: Toward Class-Agnostic and Very High-Resolution Segmentation via Global and Local Refinem"论文解读

介绍

目前图像分割算法主要是在固定分辨率范围内对图像进行训练，对于高分辨率的图像是很不准确的，无法捕获高分辨率图像的边界细节。造成大部分分割算法不适用于高分辨图像的主要原因是：
1、主流的数据集（如PASCAL或COCO数据集）分辨率就不高，如果要建立高分辨率的数据集，工作量很庞大，需要对每个像素进行标注。
2、直接训练高分辨率图像对于GPU的内存要求很高。
因此本文提出了一种通用的分割细化模型，可以将任意给定的分割从低分辨率细化到高分辨率。可以附加到现有的分割算法中，用来生成更加精细化的分割掩码。模型的输入就是某个分割算法得到初始掩码和原图，输出为精细化后的分割掩码。

模型

整个网络结构是由多级Refinement module (RM)结构级联而成的，包含全局和局部两步的修正。

RM结构

Refinement module (RM)结构
网络的输入为原始图片（[W,H]），三个不同尺度的分割掩膜图（[W,H],[W/4,H/4],[W/8,H/8]），注：这三个尺度掩模图可以都相同，也可以不同。
首先对尺度为[W/4,H/4],[W/8,H/8]的掩膜图进行上采样，成为[W,H]大小。
然后利用ResNet进行特征提取。
再利用PPM(Pyramid Pooling Module)提取