【论文阅读】【3d目标检测】Point Density-Aware Voxels for LiDAR 3D Object Detection

该论文针对3D LiDAR对象检测中的点云密度问题提出改进方法。通过点密度感知的体素编码和ROI格子点特征提取,增强了对小目标如行人和单车的识别能力。与PVRCNN相比,该方法计算效率更高且对噪声不敏感,通过kernel密度估计和自注意力机制建立了点云稠密度与特征提取的关联,提高了检测精度。实验结果显示,尤其是在小物体的AP上,该方法表现更优。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

论文题目:Point Density-Aware Voxels for LiDAR 3D Object Detection

cvpr2022 多伦多大学
这篇文章主要是对于现在voxel的方法忽略点云在roi中的稠密度的问题做了一定的工作。
过去的一些工作要么就是进行规则的voxel操作,在每个voxel的格子中规则地提取feature,要么就是利用FPS考虑一些关键点,来进行特征的提取。这些关键点对于点云的稠密度有一定的识别作用:例如在稠密的地方,选取的点肯定多一些,这样便利于物体的识别。(例如PVRCNN),当然这种方法是计算量巨大的,而且容易受到一些离群点的影响,对于噪声十分敏感。
一些小物体,例如行人和单车,他们上面的点云点一般都是很稀疏的,训练一个对于点云密度敏感的网络对于这些物体的识别是用作用的。
在这里插入图片描述
老规矩,上图吧。
在这里插入图片描述
文章分为三个部分:voxel中心的编码、roi格子点的特征提取,最后的检测head。
提取roi的rpn实际上就是一个fpn的3d结构,主要是为了提取rpn。
首先第一个部分voxel中心的编码
对于前面的3d voxel操作后,每个voxel都有了自己的特征,我们在这里计算他们的中心点:
在这里插入图片描述

随后对于每一层voxel进行逐层地计算中心:
在这里插入图片描述
这个计算中心的过程实际上也是每个voxel特征向每个voxel的点云稠密处偏移的过程。

第二部分:roi格子点的特征提取:
对于前面rpn得到的roi,我们进行划分格子:UXUXU,每个格子中有一个几何中心格子点(grid point)。
我们对于每一个格子点,做一个ball query,查询在半径r中所有的voxel中心点。对于每一个中心点进行编码:
在这里插入图片描述
编码由三个部分组成:voxel的特征,相对于格子点的距离,及经过kernel density estimation计算的稠密相似度。
在这里插入图片描述
在这里插入图片描述
编码得到的值为每个voxel中心点的稠密度,如果某一个中心点和其他voxel中心点都很近,代表此处的点云十分稠密,那么该值就会很大。
在这里插入图片描述
在这里插入图片描述
编码后进行max操作,最后将每一层的feature进行拼接,得到每个格子点最后的feature。
请注意,这时候的格子点是汇集了多层的特征的、对于点云稠密度敏感的特征。
随后我们将得到的格子点及其特征送进自注意力模块,这么操作是为了建立起长期的各格子点的依赖关系。
在这里插入图片描述
当然,作者这里的位置编码还有一个小trick,不是传统的计算各个点的相对距离或者绝对距离
在这里插入图片描述

把每一个格子点附近的voxel中心点也考虑进来,这里还是进一步增强我们文中所提到的density概念。

最后就是detect head
在这里插入图片描述
没啥好说的,作者引入了一个小trick,首先检测出refine后的box,随后将他的几何中心也考虑进confidence检测中。

看到现在是不是觉得文章的结构似曾相识?我打算拿他和sassd和pvrcnn进行一下对比,具体的便写在我的思考中。

我的思考

文章写得很不错,学习写文章可以按照这个思路来写,围绕一个主题“density”,对某一类模型进行改进(SASSD等),讲一个故事:kernel density estimation,摆结果:最后小物体的ap真的提升了不少,最后加上详细的实验,做的就比较充分了!

正如我前面所说,看这篇文章我觉得和pvrcnn很类似,作者也给出了ap比较,我便写一写他们的异同吧。
在这里插入图片描述
几乎一样的网络框架,只不过pvrcnn是利用的fps收集关键点,随后在每一层voxel进行feature聚类,最后对于grid点进行类似的聚类操作,得到最后的总feature。
作者采用fps采集关键点,对于收集到的点其实也是有一些density aware的,然而首先这个操作是计算量巨大的,其次容易受到噪声的影响。这在本文后面的实验可以看到其fps是小于本文的方法的。
随后将每个关键点进行球查询,进行voxel特征的mlp操作,最后把每一层进行拼接。这个方法和本文的方法是类似的,但是我么需要考虑这样的一个问题:经过3d卷积操作后的voxel,其feature是不是与每一个voxel中心对齐呢?我想答案是否定的,因为点云不是均匀分布的。这时候我们用这种方法得到的concat的feature实际上与原始的关键点并不对齐。这样显然会造成ap的下降。
最后的grid point 作者也没有用自注意力机制建立起每个grid点的联系。
综上,本文可以看做是pvrcnn的一个加强版。考虑点的稠密度对于小目标来说是有意义的!!!

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值