【论文笔记】HENet: Hybrid Encoding for End-to-end Multi-task 3D Perception from Multi-view Cameras

最新推荐文章于 2025-08-24 15:45:00 发布

byzy

最新推荐文章于 2025-08-24 15:45:00 发布

阅读量886

点赞数 15

CC 4.0 BY-SA版权

分类专栏：基于BEV特征表达的自动驾驶视觉感知文章标签：论文阅读自动驾驶深度学习计算机视觉

本文链接：https://blog.csdn.net/weixin_45657478/article/details/138416037

原文链接：https://arxiv.org/abs/2404.02517

1. 引言

目前的端到端多任务3D感知使用高分辨率输入图像、长的时间输入和大的图像编码器，这会导致训练代价高昂。一些方法存储过去帧的信息，但存在时间特征的不一致性和数据增广的低效性。因此，最近的方法重新计算过去帧的特征，进一步增加了训练代价。

此外，很多方法直接沿通道维度求和或拼接BEV时间特征，这会因为运动物体的不对齐而降低感知精度。

第三，端到端多任务学习的现有方法使用共享的编码器和多个解码器，这种联合学习会导致次优性能。

本文提出HENet，一种基于多视图图像的多任务3D感知方法，使用混合图像编码器，对不同帧使用不同的分辨率和图像编码器。具体来说，高分辨率输入、大图像主干和复杂的透视变换网络处理短期帧以生成高精度BEV特征；低分辨率输入、小图像主干和简单透视变换网络处理长期帧以高效生成BEV特征。此外，还提出时间整合模块，对齐和融合多帧BEV特征，包含时间反向和前向过程和相邻帧融合模块（AFFM），使用注意力机制解决运动物体的不对齐问题。最后，本文研究了多任务学习中3D目标检测任务和BEV语义分割任务冲突的原因，发现二者偏好的BEV分辨率不同，因此本文选择不同网格大小的BEV特征，使用独立的BEV编码器和任务解码器。

3. 方法

在这里插入图片描述

3.1 混合图像编码网络

短期序列使用高分辨率输入、大图像主干和复杂的透视变换网络；长期序列使用低分辨率输入、小图像主干和简单透视变换网络。

3.2 时间特征聚合

在这里插入图片描述
如图所示，时间聚合模块包含反向和前向过程，反向过程将当前帧的特征融合到过去帧；而前向过程将过去帧的特征聚合到当前帧。每个步骤都用到了带交叉注意力的相邻帧融合模块（AFFM）融合相邻帧的特征。具体来说，设两帧BEV特征分别为 $f_i,f_j$ ，则AFFM为
$\text{AFFM}(f_i,f_j)=f_j+\gamma\times\text{Avg}(\text{Attn}(\left<f_i,f_j\right>,f_i,f_i),\text{Attn}(\left<f_i,f_j\right>,f_j,f_j))$