abstract
在本文中,我们采用了一种简单而有效的方法来使2D检测器能够预测3D定位。我们首先将通常定义的7-DoF 3D位置投影到2D图像上,并获得投影的中心点,与先前的2D中心相比,我们将其命名为3D中心。通过此投影,3d中心包含2.5D信息,即2D位置及其相应的深度。可以将2D位置进一步减小到从图像上的某个点开始的2D偏移,该图像作为可以像在2D检测中一样在不同特征级别之间进行归一化的唯一2D属性。相比之下,深度,3D大小和方向被视为解耦后的3D属性。通过这种方式,我们使用基于中心的范例来转换3D目标,并避免任何必要的2D检测或2D-3D对应先验
作为实际实现,我们在FCOS [31] 上构建了我们的方法,FCOS [31] 是一个简单的无锚的完全卷积单级检测器。我们首先考虑对象的2D比例,将对象分配到不同的特征级别。然后,仅根据投影的3D中心分配每个训练样本的回归目标。与表示到边界的距离的中心度的FCOS相反,我们表示基于3D中心的2D高斯分布的3D中心度
我们在流行的大规模数据集nuScenes [3] 上评估了我们的方法,并在没有任何先验信息的情况下在该基准的相机轨道上获得了第一名。此外,我们只需要2倍的计算资源来训练基线模型,其性能可与以前的最佳开源方法CenterNet [38] 相比,也比它快3倍。两者都表明我们的框架简单高效。详细的消融研究表明了每个组件的重要性。
Approach
单目3D检测需要我们来预测3D边界框,而这些框需要解耦并转换为2D图像平面。本节将首先概述我们采用的3D目标重构框架,然后详细介绍两种相应的技术设计,即2D引导的多级3D预测和2D高斯分布的3D中心度。这些技术设计共同作用,为2D检测器FCOS配备了检测3D对象的能力。
3.1. Framework Overview
完全卷积的一级检测器通常由三个组件组成: 用于特征提取的主干,用于多级分支构造的颈和用于密集预测的检测头。然后我们简要介绍一下它们中的每一个。
骨干 我们使用预训练的ResNet101 [11,8] 和可变形卷积 [7] 进行特征提取。在我们的实验中,它在准确性和效率之间取得了很好的权衡。我们固定了第一个卷积块的参数,以避免更多的内存开销。
Neck 第二个模块是特征金字塔网络 [17],这是检测对象的主要组件
为了精确澄清,我们将3级到7级的特征图表示为P3到P7,如图2所示。我们按照原始FCOS获得P3到P5,并使用两个卷积块对P5进行下采样以获得P6和P7。所有这五个特征图都负责随后对不同比例的预测。
Detection Head最后,对于共享的检测头,我们需要处理两个关键问题。首先是如何将目标分配到不同的特征级别和不同的点。这是不同检测器的核心问题之一,将在Sec中介绍。3.2。二是如何设计架构。我们遵循RetinaNet [18] 和FCOS [31] 的常规设计。每个共享头由4个共享卷积块和用于不同目标的小头组成。根据经验,为具有不同测量的回归目标构建额外的解纠缠头更有效,因此我们为每个目标设置一个小头 (图2)。
Regression Targets首先,我们首先回顾FCOS中无锚方式的目标检测公式 Given a feature map at layer i of the backbone,
denoted as Fi ∈ RH×W×C, we need to predict objects based on each point on this feature map, which corre-sponds to uniformly distributed points on the original in-put image. 与基于锚的检测器通过将预定义的锚作为参考来回归目标不同,我们根据这些位置直接预测对象。而且,由于我们不依赖锚点,因此判断一个点是否来自前景的标准将不再是锚点与地面真相之间的IoU (相交于并集)。相反,只要该点足够靠近盒子中心,它就可能是前景点
在2D情况下,模型需要将点到顶部/底部/左侧/右侧的距离回归,表示为t,b,l,r .但是,在3D情况下,将距离回归到3D边界框的六个面是不平凡的。相反,更直接的实现是将通常定义的7-dop回归目标转换为2.5D中心和3D大小。 2.5D中心可以通过相机固有矩阵轻松转换回3D空间。可以进一步减小2.5D中心的回归,以将从中心的偏移分别回归到特定的前景点 ∆ x,∆ y及其相应的深度d。
此外,为了预测对象的同心点方向,我们将其分为两部分: 具有周期 π 的角度 θ 和2-bin方向分类。第一个组成部分自然地使用地面真值框对我们的预测的欠条进行建模,而第二个组成部分则着重于两个框具有相反方向的对抗性情况。受益于这种角度编码,我们的方法在方向精度方面超过了另一个基于中心的框架CenterNet,这将在实验中进行比较。旋转编码方案如图3所示
我们开发的旋转编码方案。两个方向相反的对象基于2-bin边界共享相同的旋转偏移,因此具有相同的sin值。为了区分它们,我们从回归分支中预测了一个额外的方向类
除了与对象的位置和方向相关的这些回归目标外,我们还像FCOS一样对二进制 center-ness c进行回归。它作为软二进制分类器来确定哪些点更靠近中心,并有助于抑制那些远离对象中心的低质量预测。更多详细信息将在Sec中介绍。3.3。
To sum up, the regression branch needs to predict :
- ∆x,中心的偏移
- ∆y,中心的偏移
- d,深度
- w,宽度
- l, 长度
- h, 高度
- θ,角度
- vx, 速度
- vy, 速度
- direction-class-C_θ(方向类c θ ),
- center-ness-c
- classification 类别
- attribute heatmap 中心点
Loss 首先,
-
1、Lclass和 Lattr(这个是heatmap),我们使用常用的焦点损失 [18] 进行对象分类损失:
其中p是预测盒的类概率。我们遵循原始论文的设置,α = 0.25和 γ = 2。
对于属性分类,我们使用简单的softmax分类损失,表示为Lattr。 -
2、Lloc,我们对每个回归目标使用平滑L1损失,除了中心度和相应的权重,考虑到它们的尺度:
其中 ∆ x,∆ y,w,l,h,θ 权重为1,d的权重为0.2,vx,vy的权重为0.05。
请注意,尽管我们使用exp(x) 进行深度预测, we still compute the loss in the original depth space instead of the log space
- 3、Ldir 和 Lct
我们使用softmax分类损失和二进制交叉熵 (BCE) 损失进行方向分类和中心度回归,分别表示为Ldir和Lct。最后,总损失为:
总的损失:
推理过程中,给定输入图像,我们将其通过框架转发,并获得带有其类分数,属性分数和中心度预测的边界框。
NMS:We multiply the class score and center-ness as the confidence for each prediction and conduct rotated NonMaximum Suppression (NMS) in the bird view。
3.2. 2D Guided Multi-Level 3D Prediction
如前所述,要使用金字塔网络训练检测器,我们需要设计一种策略来将目标分配到不同的特征级别。FCOS [31] 在其中讨论了两个关键问题: 1) 与基于锚的方法相比,如何使无锚检测器实现相似的最佳可能召回 (BPR); 2) 由地面真相盒重叠引起的棘手的歧义问题。原始论文中的比较很好地解决了第一个问题。结果表明,通过FPN进行多级预测可以改善BPR,甚至比基于锚的方法获得更好的结果。同样,这个问题的结论也适用于我们适应的框架。第二个问题将涉及回归目标的具体设置,我们接下来将讨论。
原始FCOS在不同级别的特征图中检测不同大小的对象。它直接将不同大小的地面真相框分配给不同级别的特征图 。它首先计算2D回归目标 l∗, r∗, t∗, b∗ for each location at each feature level. 然后位置满足 max(l∗, r∗, t∗, b∗) > mi or max(l∗, r∗, t∗, b∗) < mi−1 would be regarded as a negative sample 其中mi表示特征级别i 1的最大回归范围
相比之下,我们在实现中也遵循此标准,考虑到2D检测的规模与我们需要关注的区域有多大直接一致。但是,在此分配步骤中,我们仅使用2D检测来过滤无意义的目标。完成目标分配后,我们的回归目标仅包括3d相关目标。在这里,我们通过计算投影的3D边界框的外部矩形来生成2D边界框,因此我们不需要任何2D检测注释或先验。
我们将讨论如何处理歧义问题。具体来说,当一个点位于同一特征级别的多个地面真值框内时,应该为其分配哪个框?通常的方法是根据2D边界框的面积进行选择。选择面积较小的框作为该点的目标框。我们将此方案称为基于区域的标准。这种方案有一个明显的缺点: 大型物体会被这样的处理所关注,这也被我们的实验所验证 (图4)。考虑到这一点,我们转而提出一个基于距离的准则,即选择中心较近的框作为回归目标。该方案与适用于定义回归目标的基于中心的机制一致。此外,这也是合理的,因为更靠近物体中心的点可以获得更全面和平衡的局部区域特征,从而容易产生更高质量的预测。我们发现该方案显着改善了大型物体的最佳可能召回率 (BPR) 和地图,并且还改善了整体地图 (约1%),这将在消融研究中进行介绍。
图4: 我们提出的用于处理歧义情况的基于距离的目标分配可以显着提高每个类别的最佳召回率 (BPR),尤其是对于拖车等大型物体。施工车辆和交通锥在此图中缩写为CV和TC。
In addition to the center-based approach to deal with ambiguity,我们还使用3d中心来确定前景点,即只有足够靠近中心的点才会被视为正样本。我们定义一个超参数半径来测量这个中心部分。到物体中心的距离小于半径 × 步距的点将被认为是正的,在我们的实验中半径设置为1.5。
最后,我们将不同回归分支的每个输出x替换为six,以区分不同特征级别的共享头。这里的si是一个可训练的标量,用于调整特征级别i的指数函数基。它在检测性能方面带来了微小的改进。
3.3. 3D Center-ness with 2D Gaussian Distribution
In the original design of FCOS, center-ness c is defined by 2D regression targets, l*, r*, t*, b*:
由于我们的回归目标已更改为基于3D中心的范例,因此我们以投影的3D中心为原点,通过2D高斯分布定义了中心度。2D高斯分布简化为:
在这里,α 用于调整从中心到外围的强度衰减,并在我们的实验中设置为2.5。我们将其作为中心的基本事实,并从回归分支对其进行预测,以便以后过滤低质量的预测。如前所述,该中心目标的范围从0到1,因此我们使用二进制交叉熵 (BCE) 损失来训练该分支。
在经典的FCOS等模型中,centerness 的计算基于预测框中心与真实框边界的归一化距离:
centerness
=
min
(
l
∗
,
r
∗
)
max
(
l
∗
,
r
∗
)
×
min
(
t
∗
,
b
∗
)
max
(
t
∗
,
b
∗
)
\text{centerness} = \sqrt{ \frac{\min(l^*, r^*)}{\max(l^*, r^*)} \times \frac{\min(t^*, b^*)}{\max(t^*, b^*)} }
centerness=max(l∗,r∗)min(l∗,r∗)×max(t∗,b∗)min(t∗,b∗)
其中:
- ( l ∗ , r ∗ , t ∗ , b ∗ l^*, r^*, t^*, b^* l∗,r∗,t∗,b∗ ) 是预测点到真实框左、右、上、下边界的距离。
- 值域为 ([0, 1]),越接近1表示预测中心与真实中心越对齐。
4 实验
4.2. Evaluation Metrics
平均精度指标平均精度(AP)指标通常用于评估目标检测器的性能。NuScenes 没有使用3D Intersect over Union (IoU)进行阈值分割,而是在地面平面上通过2D 中心距离 d 定义匹配,以便从目标大小和方向中解耦检测。
在此基础上,通过计算精确-召回曲线下的归一化面积,计算出召回率和精确度均在10% 以上的 AP。
最后,mAP 计算在所有匹配的阈值上,D = {0.5,1,2,4} m,以及所有类别 C:
除了平均精度外,我们还计算了平均翻译误差(ATE)、平均尺度误差(ASE)、平均年龄方向误差(AOE)、平均速度误差(AVE)和平均属性误差(AAE)这五种真正的正指标。为了得到这些测量结果,我们首先定义从匹配的地面真值 d ≤2m 的中心距离的预测将被视为真正的正(TP)。然后对每类对象分别进行匹配和打分,每个指标是每个记忆水平上10% 以上的平均累积平均值。ATE 是2D (m)中的欧几里得中心距离。ASE 等于1-IOU,IOU 是在对齐预测和标签的翻译和方向后计算出来的。AOE 是预测和标签(弧度)之间的最小偏航角差。注意,与整个360度期间的其他类别不同,障碍是在180度期间测量的。AVE 是二维(m/s)绝对速度误差的 L2-范数。AAE 定义为1-acc,其中 acc 指的是属性分类 ac 的准确性。最后,给定这些指标,我们计算所有类别的平均 TP 指标(mTP) :
NuScenes 检测得分传统的 mAP 将检测位置、大小和方向的评估结合在一起,也不能捕捉到这个设置中的某些方面,比如速度和属性,所以这个基准提出了一个更全面、解耦但简单的衡量标准,nuScenes 检测得分(NDS) :
其中 mAP 是平均平均精度(mAP) ,TP 是由五个真正的正指标组成的集合。考虑到 mAVE,mAOE 和 mATE 可以大于1,应用一个界限将它们限制在0和1之间。
4.4数据增强
数据增强与以前的工作一样,我们仅在训练和测试时实现用于数据增强的图像翻转。请注意,仅需要将偏移量翻转为2D属性,并且在翻转图像时需要在3D空间中相应地转换3D框。为了增加测试一下时间,我们对检测头输出的分数图进行平均,除了旋转和速度相关的分数,因为它们不准确。从经验上讲,与最后合并框相比,这是一种更有效的增强方法。
6.结论
本文提出了一种简单而有效的一阶段框架FCOS3D,用于单目3D物体检测,而无需任何2D检测或2D-3D对应先验。在框架中,我们首先将通常定义的7-DoF 3D目标转换到图像域,并将它们解耦为2D和3D属性以适合3D设置。在此基础上,考虑对象的2D比例将其分布到不同的特征级别,并仅根据3D中心进一步分配。此外,基于3d中心的2D高斯分布重新定义了中心度,以与我们的目标公式兼容。详细消融研究的实验结果表明了我们方法的有效性。对于未来的工作,一个有希望的方向是如何在这种不适定的环境中更好地解决深度和方向估计的困难。