求极坐标中两点距离_PolarMask：极坐标表征下的单图像实例分割-CSDN博客

PolarMask是一种基于极坐标的单图像实例分割方法，结合PolarCenterness和Polar IoU Loss，提高了分割精度和效率。方法包括实例中心分类和距离回归，简化了实例分割的复杂度。

摘要

本文介绍了一种不需要锚框的单幅图像(single shot)实例分割方法：PolarMask，该方法概念简单，可以很容易地嵌入到大多数现有的检测方法中。综合来看，本文的主要贡献有以下三方面：

引入了一个全新的实例分割框架PolarMask，在极坐标下对实例掩码建模，它将实例分割转换为两个并行任务:实例中心分类和密集距离回归。
提出了极欠条损失和极中心，提出的极坐标IoU损失可以大大简化优化过程，并显著提高精度。同时，极坐标中心改进了FCOS中“Centreness”的原始思想，进一步提高了性能。
首次计算了实例分割的复杂度，在设计和计算复杂度方面，可以与边界框对象检测相同。本文进一步证明，与复杂的单阶段方法(通常涉及多尺度训练和更长的训练时间)相比，这种简单灵活的实例分割框架实现了更有竞争力的性能。

1.介绍

本文的目标是设计一个概念简单的掩模预测模块，可以轻松地插入许多现成的检测器，从而支持实例分割。设计了一种基于极坐标表示的实例分割方法，其固有的优点是:

(1)极坐标原点可以被视为对象的中心。

(2)从原点开始，等高线中的点由距离和角度确定。

(3)角度是自然的方向，使它非常方便连接的点成为一个整体轮廓。

图1. PolarMask。左侧包含了主干和特征金字塔，用于提取不同层次的特征。中间部分是两个头的分类和极坐标掩膜回归。H、W、C分别为feature map的高度、宽度、通道，k为类别的数量(例如，可可数据集中k = 80)，n是射线的数量(例如，n = 36)

本文使用对象检测器FCOS来实例化这样一个实例分割方法。具体来说，将实例分割定义为实例中心分类和极坐标下的稠密距离回归，如图1所示。模型取一幅输入图像，并预测每个角度上采样的正位置(实例中心候选位置)到实例轮廓的距离，输出最终的掩模。PolarMask的整个过程几乎和FCOS一样简单和干净。它引入的计算开销可以忽略不计。简单性和效率是单图像实例分割的两个关键因素，PolarMask成功地实现了这两点。

为了最大限度地发挥极坐标表示的优势，本文提出极坐标中心和极坐标IoU损失分别用于处理采样高质量中心样本和优化密集距离回归。相对而言，它们提高了约15%的掩码精度，在更严格的定位指标下显示出相当可观的收益。

2.方法

2.1 极坐标掩膜分割

极坐标表示法。给定一个实例掩模，首先对该实例和轮廓上的点采样一个候选中心，从中心点开始，均匀发射n条射线，其角度间距相同。这样，本文在一个中心和n条射线的极坐标下对实例蒙版建模。因为角度间隔是预先定义的，只有光线的长度需要被预测。因此，本文将实例分割定义为实例中心分类和极坐标下的稠密距离回归。

质量中心。实例的中心有许多选择，如框中心或质心。如何选择一个更好的中心取决于其对掩模预测性能的影响。对框中心和质心的上界进行了验证，得出质心更有利的结论。详细信息如图2所示。本文发现质心比框心更有可能落在实例内。

图2.上界分析。更多的射线可以模拟具有较高IoU的实例掩模，并且质心比box-center更能友好地表示实例。使用更多的射线，例如，90射线比72射线提高0.4%;120射线时结果达到上限

中心样本。如果位置落在任何实例质心周围的区域，则将其视为中心样本。否则，它就是一个负样本。本文将采样正像素的区域定义为feature map从质心到左、上、右、下的1.5倍步幅。因此，每个实例在质心附近有大约9~16个像素作为中心示例。它有两个优点:(1)将正样本的数量从1增加到9，这在很大程度上可以避免正样本和负样本的不平衡。质心可能不是一个实例的最佳中心样本。更多的候选点使自动找到一个实例的最佳中心成为可能。

距离回归。给定一个中心样本和一个实例的轮廓点，n射线易于计算。本文主要讨论一些极端情况:

如果一条射线与实例轮廓有多个交点，本文直接选择长度最大的一个。

如果一条射线从掩膜外的中心开始，与实例的轮廓在某个角度上没有交点，则本文将其回归目标设为最小值(如10⁻⁶)。

这些极端情况是限制极坐标表示上限达到100% AP的主要障碍。然而，不应该认为极坐标表示不如非参数像素表示。证据有两方面。首先，在实际应用中，即使按像素表示，也与100% AP的上界存在一定的差距，因为需要进行一些操作，如下采样。其次，无论像素表示还是极坐标表示，当前的性能都远低于上限。因此，建议将研究努力花在提高模型的实际性能上，而不是理论上界。

掩膜组装。在推理过程中，网络输出分类和中心值，将中心值与分类值相乘，得到最终的置信度。本文只从每个FPN级别最多1k的最高得分预测中组装掩模，在对置信值进行阈值设定为0.05之后。将所有级别的最高预测进行合并，并应用阈值为0.5的非最大抑制(NMS)来产生最终结果。

给定中心样本，n射线长度，计算出每个对应轮廓点的位置。从0开始，轮廓点被一个接一个的连接，如图3所示，最终组装成一个完整的轮廓和面具。本文应用NMS来删除冗余的掩膜。为了简化过程，先计算掩码的最小边界框，然后根据生成的边界框的IoU应用NMS。

图3. 掩模组装。极坐标表示提供了一个方向角。轮廓点从0°(粗线)开始逐个连接，组装整个轮廓和掩膜

图4. 极坐标中心。极坐标中心用于降低回归任务的权重，如中间图中红线所示的高多样性的射线长度。这些例子总是很难优化并且产生低质量的掩膜。在推理时，将网络预测的极坐标中心乘以分类分数，从而对劣质掩模进行减重

2.2 PolarCenterness

给定一个实例的n条射线的长度集合{d1,d2，…，dn}。如图4所示，本文引入极坐标中心来抑制低质量的目标检测:这是一个简单而有效的策略来重新分配点的权重，使dmin和dmax越接近，分配的权重越大。

如图2所示，本文添加了一个单层分支与分类分支并行来预测位置的极值中心。将网络预测的极值中心乘以分类分数，可以降低低质量掩膜的权重。

2.3 Polar IoU Loss

本文推导了一种简单有效的基于极坐标表示的掩模IoU计算算法，并取得了较好的性能。从预测掩模与ground truth之间的相互作用面积与联合面积之比的定义出发，引入了Polar IoU Loss损失，如图5所示。

图5. Polar IoU Loss。在极坐标下，掩模IoU(联合面积上的相互作用面积)可以通过将掩模IoU的微分面积通过微分角度积分得到

本文提出的Polar IoU Loss有两个优点:(1)它是可微的，允许反向传播;它很容易实现并行计算，从而实现一个快速的训练过程。(2)对回归目标进行整体预测。实验表明，与平滑L1损失相比，该算法在整体性能上有很大的提高。(3)另外，Polar IoU Loss能够自动保持稠密距离预测的分类损失和回归损失之间的平衡。

3.实验

3.1 消融实验

上界的验证。关于PolarMask的第一个担忧是，它可能不能准确地描绘出掩膜。本文证明了这种关注可能是不必要的。在此，本文验证了当所有的射线回归到与地面真值相等的距离时，PolarMask的上界作为预测掩模和地面真值的IoU。不同射线数下的验证结果如图2所示。可以看出，随着射线数量的增加，IoU接近完美(90%以上)，说明极坐标分割能够很好地形成掩模。另外，使用质心作为实例的中心比使用边框中心作为实例的中心更合理，因为边框中心更有可能脱离实例。射线的数量。它在PolarMask的整个体系中起着基础性的作用。从表1和图2可以看出，更多的射线显示更高的上限和更好的AP。例如，36射线比18射线提高1.5%的AP。同样，太多的射线会使性能饱和，因为它已经很好地描绘了遮罩的轮廓，并且射线的数量不是限制性能的主要因素。

表1. 射线数量对实验影响

PolarIoU损失与平滑L1损失。本文测试了Polar IoU损失和平滑L1损失应用在此架构上的效果。可以看到平滑L1的回归损失明显大于分类损失，因为本文的架构是一个稠密距离预测的任务。为了解决这一不平衡问题，本文在平滑L1中选择了不同的因子来进行回归分析。实验结果见表2。在不平衡回归损失和分类损失的情况下，本文的Polar IoU损失达到27.7% AP。而平滑L1损失下最佳为25.1% AP，相差2.6%AP，说明Polar IoU损失比平滑 L1损失在训练质心-轮廓距离的回归任务中更有效。

表2. Polar IoU 损失和平滑L1损失对实验影响

在图6中，本文比较了使用平滑L1损失和极性IoU损失的一些结果。平滑L1损失显示出伪影，表明它缺乏对整个物体水平的监督。PolarMask的轮廓更加平滑和精确。

图6. 平滑L1损失和Polar IoU损失的PolarMask的可视化。Polar IoU损失可以实现更精确的实例轮廓回归，而平滑L1损失则显示出伪影

极坐标中心与中心。对比实验如表3所示。极坐标中心整体提高1.4%。

表3. 极坐标中心与中心对实验影响

框分支。以往的实例分割方法大多需要通过边界框定位对象区域，然后对对象内部的像素进行分割。相反，PolarMask可以直接输出掩膜而不需要边框。本文测试额外的边界框分支是否可以帮助改善掩膜精确度。从表4可以看出，边界框分支对掩模预测性能的影响不大。因此，本文在PolarMask中没有边界框预测头，以简化和更快的速度。

表4. 框分支对实验影响

骨干架构。表5显示了PolarMask在不同主干网络上的结果。可以看出，通过更深入、更先进的设计网络提取出更好的特征，可以提高性能。

表5. 不同主干网络对实验影响

速度和准确性。较大的图像尺寸产生更高的精度、较慢的推理速度。表6显示了不同输入图像尺度(由较短的图像边定义)下的速度和精度权衡。在一个V100 GPU上对比了FPS。注意，这里报告了整个推断时间，包括所有后处理。这表明，PolarMask作为一个简单修改的实时实例分割应用程序具有很强的开发潜力。

表6. 不同图像尺度对实验影响