原文链接:https://arxiv.org/abs/2404.02517
1. 引言
目前的端到端多任务3D感知使用高分辨率输入图像、长的时间输入和大的图像编码器,这会导致训练代价高昂。一些方法存储过去帧的信息,但存在时间特征的不一致性和数据增广的低效性。因此,最近的方法重新计算过去帧的特征,进一步增加了训练代价。
此外,很多方法直接沿通道维度求和或拼接BEV时间特征,这会因为运动物体的不对齐而降低感知精度。
第三,端到端多任务学习的现有方法使用共享的编码器和多个解码器,这种联合学习会导致次优性能。
本文提出HENet,一种基于多视图图像的多任务3D感知方法,使用混合图像编码器,对不同帧使用不同的分辨率和图像编码器。具体来说,高分辨率输入、大图像主干和复杂的透视变换网络处理短期帧以生成高精度BEV特征;低分辨率输入、小图像主干和简单透视变换网络处理长期帧以高效生成BEV特征。此外,还提出时间整合模块,对齐和融合多帧BEV特征,包含时间反向和前向过程和相邻帧融合模块(AFFM),使用注意力机制解决运动物体的不对齐问题。最后,本文研究了多任务学习中3D目标检测任务和BEV语义分割任务冲突的原因,发现二者偏好的BEV分辨率不同,因此本文选择不同网格大小的BEV特征,使用独立的BEV编码器和任务解码器。
3. 方法
3.1 混合图像编码网络
短期序列使用高分辨率输入、大图像主干和复杂的透视变换网络;长期序列使用低分辨率输入、小图像主干和简单透视变换网络。
3.2 时间特征聚合
如图所示,时间聚合模块包含反向和前向过程,反向过程将当前帧的特征融合到过去帧;而前向过程将过去帧的特征聚合到当前帧。每个步骤都用到了带交叉注意力的相邻帧融合模块(AFFM)融合相邻帧的特征。具体来说,设两帧BEV特征分别为 f i , f j f_i,f_j fi,fj,则AFFM为
AFFM ( f i , f j ) = f j + γ × Avg ( Attn ( < f i , f j > , f i , f i ) , Attn ( < f i , f j > , f j , f j ) ) \text{AFFM}(f_i,f_j)=f_j+\gamma\times\text{Avg}(\text{Attn}(\left<f_i,f_j\right>,f_i,f_i),\text{Attn}(\left<f_i,f_j\right>,f_j,f_j)) AFFM(fi,fj)=f