SSR:基于导航引导的稀疏场景表征实现端到端自动驾驶
论文信息
-
标题:Navigation-Guided Sparse Scene Representation for End-to-End Autonomous Driving
-
作者:Peidong Li, Dixiao Cui
-
单位:智加科技
-
项目地址:https://github.com/PeidongLi/SSR
文章概述
端到端自动驾驶(E2EAD)方法通常依赖监督式感知任务来提取显式场景信息(如物体、地图)。
这种依赖性不仅需要昂贵的标注成本,还制约了实时应用中的部署与数据扩展能力。
本文提出SSR框架,仅用16个导航引导的稀疏场景表征令牌,即可高效提取E2EAD所需的关键场景信息。该方法摒弃了人工设计的监督式子任务,使计算资源集中处理与导航意图直接相关的核心要素。我们进一步引入时序增强模块,通过自监督机制对齐预测的未来场景与实际场景。
在nuScenes数据集上,SSR相较UniAD实现了L2误差相对降低27.2%、碰撞率下降51.6%,推理速度提升10.9×倍,训练时间缩短13×倍。在CARLA的Town05 Long基准测试中,SSR以驾驶评分领先VAD-Base达48.6分的优势刷新纪录。该框架标志着实时自动驾驶系统的重大突破,为未来规模化部署铺平道路。
AW:基于潜在世界模型的端到端自动驾驶增强技术
论文信息
-
标题:Enhancing End-to-End Autonomous Driving with Latent World Model
-
作者:Yingyan Li, Lue Fan, Jiawei He, Yuqi Wang, Yuntao Chen, Zhaoxiang Zhang *, Tieniu Tan
-
单位:中国科学院自动化研究所等
-
项目地址:https://github.com/BraveGroup/LAW
文章概述
在自动驾驶领域,端到端规划器直接利用原始传感器数据,相比传统规划器能提取更丰富的场景特征并减少信息损失。这引出一个关键研究问题:如何构建更好的场景特征表征以充分发挥端到端驾驶中传感器数据的价值?
自监督学习方法在NLP和计算机视觉领域已成功实现丰富特征表征的学习。受此启发,我们提出利用潜在世界模型(LAW)进行端到端驾驶的新型自监督学习方法。
该模型通过当前特征与自车轨迹预测未来场景特征,这种自监督任务可无缝集成到无感知与基于感知的框架中,优化场景特征学习与轨迹预测性能。
LAW在nuScenes、NAVSIM等真实世界开环基准和CARLA仿真器闭环基准中均达到最先进水平。
Drive Transformer:面向可扩展端到端自动驾驶的统一Transformer架构
论文信息
-
标题:DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving
-
作者:Xiaosng Jia *, Junqi You *, Zhiyuan Zhang *, Junchi Yan †
-
单位:上海交通大学,上海AI实验室
-
项目地址:https://github.com/Thinklab-SJTU/DriveTransformer/
文章概述
端到端自动驾驶(E2E-AD)已成为该领域的发展趋势,其通过数据驱动方式实现可扩展的系统设计。然而现有方法通常采用感知-预测-规划的串行范式,导致误差累积和训练不稳定性。人为设定的任务顺序也限制了系统利用任务间协同效应的能力(例如规划感知的感知行为、博弈论式交互预测与规划)。
此外,现有方法采用的密集BEV表征给远距离感知和长时序融合带来计算挑战。为此,我们提出DriveTransformer——一个便于扩展的简化E2E-AD框架,其三大特征为:任务并行性(所有智能体、地图和规划查询在每模块直接交互)、稀疏表征(任务查询直接与原始传感器特征交互)、流式处理(任务查询作为历史信息存储传递)。
新框架由此形成三个统一操作:任务自注意力、传感器交叉注意力和时序交叉注意力,显著降低系统复杂度并提升训练稳定性。DriveTransformer在仿真闭环基准Bench2Drive和现实开环基准nuScenes上均达到最先进性能,且保持高帧率。
MGMAPNET:面向端到端矢量化高精地图构建的多粒度表征学习
-
标题:MGMapNet: Multi-Granularity Representation Learning for End-to-End Vectorized HD Map Construction
-
作者:Jing Yang ∗ ‡, Minyue Jiang ∗, Sen Yang ∗, Xiao Tan, Yingying Li, Errui Ding, Hanli Wang †, Jingdong Wang †
-
单位:同济大学,百度
-
项目地址:https://github.com/Tongji-MIC-Lab/MGMapNet
文章概述
矢量高清地图(HD map)的构建通常需要同时获取地图元素的类别与几何信息。当前最先进的方法往往单独采用点级或实例级表征,忽略了点与实例之间强烈的内在关联。
本文提出名为MGMapNet(多粒度地图网络)的简洁高效框架,通过融合粗粒度实例级查询与细粒度点级查询,实现地图元素的多粒度表征。
具体而言,这两种粒度查询通过提出的多粒度聚合器从多尺度鸟瞰图(BEV)特征生成:实例级查询聚合实例覆盖范围内的全局特征,点级查询则聚合局部特征。
此外,设计了点实例交互模块促进两种查询间的信息交换。实验表明,MGMapNet在nuScenes和Argoverse2数据集上分别以5.3 mAP和4.4 mAP的优势超越MapTRv2,达到最先进性能。