求极坐标中两点距离_PolarMask:极坐标表征下的单图像实例分割

PolarMask是一种基于极坐标的单图像实例分割方法,结合PolarCenterness和Polar IoU Loss,提高了分割精度和效率。方法包括实例中心分类和距离回归,简化了实例分割的复杂度。

e8b920bd570634c1846725737ebc3441.png

摘要

本文介绍了一种不需要锚框的单幅图像(single shot)实例分割方法:PolarMask,该方法概念简单,可以很容易地嵌入到大多数现有的检测方法中。综合来看,本文的主要贡献有以下三方面:

  1. 引入了一个全新的实例分割框架PolarMask,在极坐标下对实例掩码建模,它将实例分割转换为两个并行任务:实例中心分类和密集距离回归。

  2. 提出了极欠条损失和极中心,提出的极坐标IoU损失可以大大简化优化过程,并显著提高精度。同时,极坐标中心改进了FCOS中“Centreness”的原始思想,进一步提高了性能。

  3. 首次计算了实例分割的复杂度,在设计和计算复杂度方面,可以与边界框对象检测相同。本文进一步证明,与复杂的单阶段方法(通常涉及多尺度训练和更长的训练时间)相比,这种简单灵活的实例分割框架实现了更有竞争力的性能。

1.介绍

本文的目标是设计一个概念简单的掩模预测模块,可以轻松地插入许多现成的检测器,从而支持实例分割。设计了一种基于极坐标表示的实例分割方法,其固有的优点是:

(1)极坐标原点可以被视为对象的中心。

(2)从原点开始,等高线中的点由距离和角度确定。

(3)角度是自然的方向,使它非常方便连接的点成为一个整体轮廓。

b9c79da5c5dafa3896da659603d9108d.png

图1. PolarMask。左侧包含了主干和特征金字塔,用于提取不同层次的特征。中间部分是两个头的分类和极坐标掩膜回归。H、W、C分别为feature map的高度、宽度、通道,k为类别的数量(例如,可可数据集中k = 80),n是射线的数量(例如,n = 36)

本文使用对象检测器FCOS来实例化这样一个实例分割方法。具体来说,将实例分割定义为实例中心分类和极坐标下的稠密距离回归,如图1所示。模型取一幅输入图像,并预测每个角度上采样的正位置(实例中心候选位置)到实例轮廓的距离,输出最终的掩模。PolarMask的整个过程几乎和FCOS一样简单和干净。它引入的计算开销可以忽略不计。简单性和效率是单图像实例分割的两个关键因素,PolarMask成功地实现了这两点。

为了最大限度地发挥极坐标表示的优势,本文提出极坐标中心和极坐标IoU损失分别用于处理采样高质量中心样本和优化密集距离回归。相对而言,它们提高了约15%的掩码精度,在更严格的定位指标下显示出相当可观的收益。

2.方法

2.1 极坐标掩膜分割

极坐标表示法。给定一个实例掩模,首先对该实例和轮廓上的点采样一个候选中心,从中心点开始,均匀发射n条射线,其角度间距相同。这样,本文在一个中心和n条射线的极坐标下对实例蒙版建模。因为角度间隔是预先定义的,只有光线的长度需要被预测。因此,本文将实例分割定义为实例中心分类和极坐标下的稠密距离回归。

质量中心。实例的中心有许多选择,如框中心或质心。如何选择一个更好的中心取决于其对掩模预测性能的影响。对框中心和质心的上界进行了验证,得出质心更有利的结论。详细信息如图2所示。本文发现质心比框心更有可能落在实例内。

00ded4f9216cf88c5e0a79527742a0c2.png

图2.上界分析。更多的射线可以模拟具有较高IoU的实例掩模,并且质心比box-center更能友好地表示实例。使用更多的射线,例如,90射线比72射线提高0.4%;120射线时结果达到上限

中心样本。如果位置落在任何实例质心周围的区域,则将其视为中心样本。否则,它就是一个负样本。本文将采样正像素的区域定义为feature map从质心到左、上、右、下的1.5倍步幅。因此,每个实例在质心附近有大约9~16个像素作为中心示例。它有两个优点:(1)将正样本的数量从1增加到9,这在很大程度上可以避免正样本和负样本的不平衡。质心可能不是一个实例的最佳中心样本。更多的候选点使自动找到一个实例的最佳中心成为可能。

距离回归。给定一个中心样本和一个实例的轮廓点,n射线易于计算。本文主要讨论一些极端情况:

如果一条射线与实例轮廓有多个交点,本文直接选择长度最大的一个。

如果一条射线从掩膜外的中心开始,与实例的轮廓在某个角度上没有交点,则本文将其回归目标设为最小值(如10−6)。

这些极端情况是限制极坐标表示上限达到100% AP的主要障碍。然而,不应该认为极坐标表示不如非参数像素表示。证据有两方面。首先,在实际应用中,即使按像素表示,也与100% AP的上界存在一定的差距,因为需要进行一些操作,如下采样。其次,无论像素表示还是极坐标表示,当前的性能都远低于上限。因此,建议将研究努力花在提高模型的实际性能上,而不是理论上界。

掩膜组装。在推理过程中,网络输出分类和中心值,将中心值与分类值相乘,得到最终的置信度。本文只从每个FPN级别最多1k的最高得分预测中组装掩模,在对置信值进行阈值设定为0.05之后。将所有级别的最高预测进行合并,并应用阈值为0.5的非最大抑制(NMS)来产生最终结果。

给定中心样本,n射线长度,计算出每个对应轮廓点的位置。从0开始,轮廓点被一个接一个的连接,如图3所示,最终组装成一个完整的轮廓和面具。本文应用NMS来删除冗余的掩膜。为了简化过程,先计算掩码的最小边界框,然后根据生成的边界框的IoU应用NMS。

42a278ce5cedd0939eb010d3c4c22644.png

图3. 掩模组装。极坐标表示提供了一个方向角。轮廓点从0°(粗线)开始逐个连接,组装整个轮廓和掩膜

4616a8a73068d87a84e8d209db81c68f.png

图4. 极坐标中心。极坐标中心用于降低回归任务的权重,如中间图中红线所示的高多样性的射线长度。这些例子总是很难优化并且产生低质量的掩膜。在推理时,将网络预测的极坐标中心乘以分类分数,从而对劣质掩模进行减重

2.2 PolarCenterness

给定一个实例的n条射线的长度集合{d1,d2,…,dn}。如图4所示,本文引入极坐标中心来抑制低质量的目标检测:这是一个简单而有效的策略来重新分配点的权重,使dmin和dmax越接近,分配的权重越大。

如图2所示,本文添加了一个单层分支与分类分支并行来预测位置的极值中心。将网络预测的极值中心乘以分类分数,可以降低低质量掩膜的权重。

2.3 Polar IoU Loss

本文推导了一种简单有效的基于极坐标表示的掩模IoU计算算法,并取得了较好的性能。从预测掩模与ground truth之间的相互作用面积与联合面积之比的定义出发,引入了Polar IoU Loss损失,如图5所示。

41ee68bd455109ced7a531cb8499b21c.png

图5. Polar IoU Loss。在极坐标下,掩模IoU(联合面积上的相互作用面积)可以通过将掩模IoU的微分面积通过微分角度积分得到

本文提出的Polar IoU Loss有两个优点:(1)它是可微的,允许反向传播;它很容易实现并行计算,从而实现一个快速的训练过程。(2)对回归目标进行整体预测。实验表明,与平滑L1损失相比,该算法在整体性能上有很大的提高。(3)另外,Polar IoU Loss能够自动保持稠密距离预测的分类损失和回归损失之间的平衡。

3.实验

3.1 消融实验

上界的验证。关于PolarMask的第一个担忧是,它可能不能准确地描绘出掩膜。本文证明了这种关注可能是不必要的。在此,本文验证了当所有的射线回归到与地面真值相等的距离时,PolarMask的上界作为预测掩模和地面真值的IoU。不同射线数下的验证结果如图2所示。可以看出,随着射线数量的增加,IoU接近完美(90%以上),说明极坐标分割能够很好地形成掩模。另外,使用质心作为实例的中心比使用边框中心作为实例的中心更合理,因为边框中心更有可能脱离实例。射线的数量。它在PolarMask的整个体系中起着基础性的作用。从表1和图2可以看出,更多的射线显示更高的上限和更好的AP。例如,36射线比18射线提高1.5%的AP。同样,太多的射线会使性能饱和,因为它已经很好地描绘了遮罩的轮廓,并且射线的数量不是限制性能的主要因素。

表1. 射线数量对实验影响

eed7ecb86886b199ba5eb90191904485.png

PolarIoU损失与平滑L1损失。本文测试了Polar IoU损失和平滑L1损失应用在此架构上的效果。可以看到平滑L1的回归损失明显大于分类损失,因为本文的架构是一个稠密距离预测的任务。为了解决这一不平衡问题,本文在平滑L1中选择了不同的因子来进行回归分析。实验结果见表2。在不平衡回归损失和分类损失的情况下,本文的Polar IoU损失达到27.7% AP。而平滑L1损失下最佳为25.1% AP,相差2.6%AP,说明Polar IoU损失比平滑 L1损失在训练质心-轮廓距离的回归任务中更有效。

表2. Polar IoU 损失和平滑L1损失对实验影响

200bb87176102b15616106905831c7f4.png

在图6中,本文比较了使用平滑L1损失和极性IoU损失的一些结果。平滑L1损失显示出伪影,表明它缺乏对整个物体水平的监督。PolarMask的轮廓更加平滑和精确。

860700e0060c76fff865c80f5a5ee1cc.png

图6. 平滑L1损失和Polar IoU损失的PolarMask的可视化。Polar IoU损失可以实现更精确的实例轮廓回归,而平滑L1损失则显示出伪影

极坐标中心与中心。对比实验如表3所示。极坐标中心整体提高1.4%。

表3. 极坐标中心与中心对实验影响

6dce3a58249f7e9f3d60b75559768ab3.png

框分支。以往的实例分割方法大多需要通过边界框定位对象区域,然后对对象内部的像素进行分割。相反,PolarMask可以直接输出掩膜而不需要边框。本文测试额外的边界框分支是否可以帮助改善掩膜精确度。从表4可以看出,边界框分支对掩模预测性能的影响不大。因此,本文在PolarMask中没有边界框预测头,以简化和更快的速度。

表4. 框分支对实验影响

c91011d257714128e20eaada86cd6440.png

骨干架构。表5显示了PolarMask在不同主干网络上的结果。可以看出,通过更深入、更先进的设计网络提取出更好的特征,可以提高性能。

表5. 不同主干网络对实验影响

032d86061e11a5e592c6a4a0e3e44bfe.png

速度和准确性。较大的图像尺寸产生更高的精度、较慢的推理速度。表6显示了不同输入图像尺度(由较短的图像边定义)下的速度和精度权衡。在一个V100 GPU上对比了FPS。注意,这里报告了整个推断时间,包括所有后处理。这表明,PolarMask作为一个简单修改的实时实例分割应用程序具有很强的开发潜力。

表6. 不同图像尺度对实验影响

f83515bdd3ac330da3b574348edc7fce.png

4.总结

PolarMask提出用轮廓表示掩模,用一个中心和从中心向轮廓发出的光线在极坐标下对轮廓进行建模。PolarMask的设计几乎和单图像物体检测器一样简单和干净,引入了可以忽略不计的计算开销。有望成为单图像实例分割的基准框架。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值