摘要
本文介绍了一种不需要锚框的单幅图像(single shot)实例分割方法:PolarMask,该方法概念简单,可以很容易地嵌入到大多数现有的检测方法中。综合来看,本文的主要贡献有以下三方面:
引入了一个全新的实例分割框架PolarMask,在极坐标下对实例掩码建模,它将实例分割转换为两个并行任务:实例中心分类和密集距离回归。
提出了极欠条损失和极中心,提出的极坐标IoU损失可以大大简化优化过程,并显著提高精度。同时,极坐标中心改进了FCOS中“Centreness”的原始思想,进一步提高了性能。
首次计算了实例分割的复杂度,在设计和计算复杂度方面,可以与边界框对象检测相同。本文进一步证明,与复杂的单阶段方法(通常涉及多尺度训练和更长的训练时间)相比,这种简单灵活的实例分割框架实现了更有竞争力的性能。
1.介绍
本文的目标是设计一个概念简单的掩模预测模块,可以轻松地插入许多现成的检测器,从而支持实例分割。设计了一种基于极坐标表示的实例分割方法,其固有的优点是:
(1)极坐标原点可以被视为对象的中心。
(2)从原点开始,等高线中的点由距离和角度确定。
(3)角度是自然的方向,使它非常方便连接的点成为一个整体轮廓。
图1. PolarMask。左侧包含了主干和特征金字塔,用于提取不同层次的特征。中间部分是两个头的分类和极坐标掩膜回归。H、W、C分别为feature map的高度、宽度、通道,k为类别的数量(例如,可可数据集中k = 80),n是射线的数量(例如,n = 36)
本文使用对象检测器FCOS来实例化这样一个实例分割方法。具体来说,将实例分割定义为实例中心分类和极坐标下的稠密距离回归,如图1所示。模型取一幅输入图像,并预测每个角度上采样的正位置(实例中心候选位置)到实例轮廓的距离,输出最终的掩模。PolarMask的整个过程几乎和FCOS一样简单和干净。它引入的计算开销可以忽略不计。简单性和效率是单图像实例分割的两个关键因素,PolarMask成功地实现了这两点。
为了最大限度地发挥极坐标表示的优势,本文提出极坐标中心和极坐标IoU损失分别用于处理采样高质量中心样本和优化密集距离回归。相对而言,它们提高了约15%的掩码精度,在更严格的定位指标下显示出相当可观的收益。
2.方法
2.1 极坐标掩膜分割
极坐标表示法。给定一个实例掩模,首先对该实例和轮廓上的点采样一个候选中心,从中心点开始,均匀发射n条射线,其角度间距相同。这样,本文在一个中心和n条射线的极坐标下对实例蒙版建模。因为角度间隔是预先定义的,只有光线的长度需要被预测。因此,本文将实例分割定义为实例中心分类和极坐标下的稠密距离回归。
质量中心。实例的中心有许多选择,如框中心或质心。如何选择一个更好的中心取决于其对掩模预测性能的影响。对框中心和质心的上界进行了验证,得出质心更有利的结论。详细信息如图2所示。本文发现质心比框心更有可能落在实例内。
图2.上界分析。更多的射线可以模拟具有较高IoU的实例掩模,并且质心比box-center更能友好地表示实例。使用更多的射线,例如,90射线比72射线提高0.4%;120射线时结果达到上限
中心样本。如果位置落在任何实例质心周围的区域,则将其视为中心样本。否则,它就是一个负样本。本文将采样正像素的区域定义为feature map从质心到左、上、右、下的1.5倍步幅。因此,每个实例在质心附近有大约9~16个像素作为中心示例。它有两个优点:(1)将正样本的数量从1增加到9,这在很大程度上可以避免正样本和负样本的不平衡。质心可能不是一个实例的最佳中心样本。更多的候选点使自动找到一个实例的最佳中心成为可能。
距离回归。给定一个中心样本和一个实例的轮廓点,n射线易于计算。本文主要讨论一些极端情况:
如果一条射线与实例轮廓有多个交点,本文直接选择长度最大的一个。
如果一条射线从掩膜外的中心开始,与实例的轮廓在某个角度上没有交点,则本文将其回归目标设为最小值(如10−6)。
这些极端情况是限制极坐标表示上限达到100% AP的主要障碍。然而,不应该认为极坐标表示不如非参数像素表示。证据有两方面。首先,在实际应用中,即使按像素表示,也与100% AP的上界存在一定的差距,因为需要进行一些操作,如下采样。其次,无论像素表示还是极坐标表示,当前的性能都远低于上限。因此,建议将研究努力花在提高模型的实际性能上,而不是理论上界。
掩膜组装。在推理过程中,网络输出分类和中心值,将中心值与分类值相乘,得到最终的置信度。本文只从每个FPN级别最多1k的最高得分预测中组装掩模,在对置信值进行阈值设定为0.05之后。将所有级别的最高预测进行合并,并应用阈值为0.5的非最大抑制(NMS)来产生最终结果。
给定中心样本,n射线长度,计算出每个对应轮廓点的位置。从0开始,轮廓点被一个接一个的连接,如图3所示,最终组装成一个完整的轮廓和面具。本文应用NMS来删除冗余的掩膜。为了简化过程,先计算掩码的最小边界框,然后根据生成的边界框的IoU应用NMS。
图3. 掩模组装。极坐标表示提供了一个方向角。轮廓点从0°(粗线)开始逐个连接,组装整个轮廓和掩膜
图4. 极坐标中心。极坐标中心用于降低回归任务的权重,如中间图中红线所示的高多样性的射线长度。这些例子总是很难优化并且产生低质量的掩膜。在推理时,将网络预测的极坐标中心乘以分类分数,从而对劣质掩模进行减重
2.2 PolarCenterness
给定一个实例的n条射线的长度集合{d1,d2,…,dn}。如图4所示,本文引入极坐标中心来抑制低质量的目标检测:这是一个简单而有效的策略来重新分配点的权重,使dmin和dmax越接近,分配的权重越大。
如图2所示,本文添加了一个单层分支与分类分支并行来预测位置的极值中心。将网络预测的极值中心乘以分类分数,可以降低低质量掩膜的权重。
2.3 Polar IoU Loss
本文推导了一种简单有效的基于极坐标表示的掩模IoU计算算法,并取得了较好的性能。从预测掩模与ground truth之间的相互作用面积与联合面积之比的定义出发,引入了Polar IoU Loss损失,如图5所示。
图5. Polar IoU Loss。在极坐标下,掩模IoU(联合面积上的相互作用面积)可以通过将掩模IoU的微分面积通过微分角度积分得到
本文提出的Polar IoU Loss有两个优点:(1)它是可微的,允许反向传播;它很容易实现并行计算,从而实现一个快速的训练过程。(2)对回归目标进行整体预测。实验表明,与平滑L1损失相比,该算法在整体性能上有很大的提高。(3)另外,Polar IoU Loss能够自动保持稠密距离预测的分类损失和回归损失之间的平衡。
3.实验
3.1 消融实验
上界的验证。关于PolarMask的第一个担忧是,它可能不能准确地描绘出掩膜。本文证明了这种关注可能是不必要的。在此,本文验证了当所有的射线回归到与地面真值相等的距离时,PolarMask的上界作为预测掩模和地面真值的IoU。不同射线数下的验证结果如图2所示。可以看出,随着射线数量的增加,IoU接近完美(90%以上),说明极坐标分割能够很好地形成掩模。另外,使用质心作为实例的中心比使用边框中心作为实例的中心更合理,因为边框中心更有可能脱离实例。射线的数量。它在PolarMask的整个体系中起着基础性的作用。从表1和图2可以看出,更多的射线显示更高的上限和更好的AP。例如,36射线比18射线提高1.5%的AP。同样,太多的射线会使性能饱和,因为它已经很好地描绘了遮罩的轮廓,并且射线的数量不是限制性能的主要因素。表1. 射线数量对实验影响
表2. Polar IoU 损失和平滑L1损失对实验影响
在图6中,本文比较了使用平滑L1损失和极性IoU损失的一些结果。平滑L1损失显示出伪影,表明它缺乏对整个物体水平的监督。PolarMask的轮廓更加平滑和精确。
图6. 平滑L1损失和Polar IoU损失的PolarMask的可视化。Polar IoU损失可以实现更精确的实例轮廓回归,而平滑L1损失则显示出伪影
极坐标中心与中心。对比实验如表3所示。极坐标中心整体提高1.4%。表3. 极坐标中心与中心对实验影响
表4. 框分支对实验影响
表5. 不同主干网络对实验影响
表6. 不同图像尺度对实验影响
4.总结
PolarMask提出用轮廓表示掩模,用一个中心和从中心向轮廓发出的光线在极坐标下对轮廓进行建模。PolarMask的设计几乎和单图像物体检测器一样简单和干净,引入了可以忽略不计的计算开销。有望成为单图像实例分割的基准框架。