【LVLMs】地平线：HE-Drive Human-Like End-to-End Driving with Vision Language Models_he-drive:human-like end-to-end driving with vision-CSDN博客

论文：HE-Drive Human-Like End-to-End Driving with Vision Language Models
代码：https://github.com/jmwang0117/HE-Drive
论文：https://arxiv.org/abs/2410.05051

摘要

在本文中，我们提出了 HE-Drive：第一个以类人为中心的端到端自动驾驶系统，可生成时间一致且舒适的轨迹。最近的研究表明，基于模仿学习的规划器和基于学习的轨迹评分器可以有效地生成和选择与专家演示非常相似的准确轨迹。然而，这样的轨迹规划器和评分器面临着生成时间不一致和不舒服的轨迹的困境。为了解决上述问题，我们的 HE-Drive 首先通过稀疏感知提取关键的 3D 空间表示，然后将其作为基于条件去噪扩散概率模型 (DDPM) 的运动规划器的条件输入，以生成时间一致性的多模态轨迹。随后，视觉语言模型 (VLM) 引导的轨迹评分器从这些候选轨迹中选择最舒适的轨迹来控制车辆，确保类似人类的端到端驾驶。实验表明，HE-Drive 不仅在具有挑战性的 nuScenes 和 OpenScene 数据集上实现了最佳性能（即平均碰撞率比 VAD 降低 71%）和效率（即速度比 SparseDrive 快 1.9 倍），而且还在真实数据上提供了最舒适的驾驶体验。有关更多信息，请访问项目网站：https://jmwang0117.github.io/HE-Drive/。

1 INTRODUCTION

端到端范式（Hu et al., 2023b；Jiang et al., 2023b；Sun et al., 2024）将感知、规划和轨迹评分任务集成到针对规划目标进行优化的统一模型中，最近已在推动自动驾驶技术方面显示出巨大潜力（图 1a）。最新研究提出了基于模仿学习的运动规划器（Chen et al., 2024；Cheng et al., 2024），该规划器从大规模驾驶演示中学习驾驶策略，并使用基于学习的轨迹评分器（Zhao et al., 2021；Jiang et al., 2023a）从多个预测候选中选择最安全、最准确的轨迹来控制车辆。

但端到端范式面临着生成时间不一致轨迹的挑战：

生成时间不一致（Temporal Inconsistency）在自动驾驶轨迹预测与规划中，指连续时间步生成的轨迹在运动状态（如位置、速度、加速度、曲率等）上缺乏连贯性，表现为预测结果不稳定或前后矛盾。具体表现为以下两方面：

预测不稳定：相邻时间步的轨迹预测可能突然改变方向或速度（例如前一帧预测直行，后一帧突然转向），导致车辆控制指令频繁波动。这种不一致性源于模型未充分考虑历史轨迹的时序依赖性，或对动态环境的泛化能力不足。
物理不可行性：生成的轨迹可能违反车辆运动学约束（如瞬时加速度突变、曲率不连续），导致实际执行时出现连续制动、失速或转向过急等不舒适甚至危险的驾驶行为。例如，MomAD论文指出，时间不一致的轨迹会引发“最大分数偏移”问题，即评分器选择的最高分轨迹在相邻帧间剧烈变化，破坏驾驶平滑性。

原因分析

数据与建模局限：模仿学习规划器依赖离线专家数据，若数据覆盖不足或质量差，模型难以应对动态变化的场景。
缺乏时序建模：传统方法仅基于当前帧信息预测，忽略历史轨迹的动量（如速度/加速度趋势），导致预测孤立。
评分器缺陷：基于学习的评分器可能过度优化单帧精度，而未评估轨迹的长期一致性。

解决方案
近期研究通过以下方法提升时间一致性：

扩散模型规划器：如HE-Drive利用条件扩散模型（DDPM）生成多模态轨迹，通过隐式学习时序分布增强连贯性。
动量感知机制：如MomAD引入轨迹动量和感知动量，通过历史查询混合器稳定预测。
时序一致性指标：TPC（Trajectory Prediction Consistency）等指标量化相邻预测的差异，驱动模型优化。

时间不一致性是端到端自动驾驶中需解决的关键问题，直接影响行驶安全与舒适性。

在这项工作中，我们引入了 HE-Drive，这是第一个以人为本的端到端自动驾驶系统，用于解决上述两个问题，如图 2 所示。具体而言，我们发现基于模仿学习的规划器生成的轨迹的时间不一致性来自两个主要因素：时间相关性和泛化。首先，这些规划器依赖当前帧的过去几秒钟的信息来预测未来的轨迹，而忽略了连续预测之间的相关性（Zhou 等人，2023；Tang 等人，2024）。其次，它们的性能受到所收集的离线专家轨迹质量的限制，导致它们容易受到系统动态变化和分布外状态的影响，从而导致学习到的策略缺乏对未见过场景的泛化能力。受机器人操作中扩散策略 (Chi et al., 2024) 成功的启发，该策略采用视觉条件扩散模型 (Ho et al., 2020) 来准确表示用于生成动作序列的多模态分布，我们提出了一种基于扩散的规划器，可生成具有强时间一致性的多模态轨迹。

此外，预测轨迹不舒适的主要原因是次优轨迹评分器无法实现终身评估，并且缺乏衡量轨迹舒适度的通用指标。最近的研究表明，基于学习的评分器在闭环场景中不如基于规则的评分器（Dauner 等人，2023），而后者由于依赖手工制作的后处理而受到有限的泛化影响。其他研究人员探索了使用视觉语言模型 (VLM)（Shao 等人，2024；Sima 等人，2023；Xu 等人，2024a）来感知周围代理的运动和交通表示以决定下一步的移动。然而，直接使用 VLM 作为驾驶决策者会带来与可解释性差和严重幻觉相关的挑战（Xu 等人，2024b）。为了解决这些问题，我们提出了一种新颖的轨迹评分器和通用舒适度指标，将基于规则的评分器的可解释性与 VLM 的适应性相结合，以调整驾驶风格（即激进或保守）以进行终身评估。

综上所述，HE-Drive 是一种新型的以人为中心的端到端自动驾驶系统，它利用稀疏感知来检测、跟踪和绘制基于稀疏特征的驾驶场景，从而生成 3D 空间表示。这些表示有条件地输入到基于扩散的运动规划器中，该规划器由条件去噪扩散概率模型 (DDPM) 提供支持。最后，VLM 引导（即 Llama 3.2V）轨迹评分器从候选轨迹中选择最舒适的轨迹来控制车辆，从而确保类似人类的端到端驾驶。我们工作的主要贡献总结如下：:
• 基于扩散的运动规划器：我们提出了一种基于扩散的运动规划器，该规划器通过调节稀疏感知网络提取的 3D 表示并结合历史预测轨迹的速度、加速度和偏航来生成时间一致且多模态的轨迹。（§ 3.2）
• 即插即用轨迹评分器：我们引入了一种新颖的 VLM 引导轨迹评分器和舒适度指标，解决了类人驾驶的差距，使其易于集成到现有的自动驾驶系统中。（§ 3.3）
• 在开环和闭环基准测试中取得优异成绩：HE-Drive 在 nuScenes 和 OpenScene 数据集上实现了最先进的性能（即与 VAD 相比，平均碰撞率降低了 71%）和效率（即比 SparseDrive 快 1.9 倍），同时在真实世界数据集上将舒适度提高了 32%，展示了其在各种场景中的有效性。（§ 4.2、§ 4.4 和 § 4.5）

2 RELATED WORK

在本节中，我们首先在第 2.1 节中回顾了端到端自动驾驶车辆导航的经典方法。随后，第 2.2 节总结了当前关于在机器人技术中使用扩散模型进行轨迹规划的研究。为了进一步展开讨论，第 2.3 节回顾了 VLM 在自动驾驶系统中用于轨迹评估的使用情况。

2.1 END-TO-END AUTONOMOUS DRIVING

端到端自动驾驶旨在直接从原始传感器生成规划轨迹。在该领域，进展已根据其评估方法分为：开环系统和闭环系统。在开环系统中，UniAD（Hu 等人，2023a）提出了一个统一的框架，将全栈驾驶任务与查询统一接口集成在一起，以改善任务之间的交互。VAD（Jiang 等人，2023a）提高了规划安全性和效率，这从其在 nuScenes 数据集上的表现可以看出，而 SparseDrive（Sun 等人，2024）利用稀疏表示来减轻模块化系统固有的信息丢失和错误传播，从而提高任务性能和计算效率。对于闭环评估，VADv2（Chen 等人，2024）通过概率规划推进了矢量化自动驾驶，使用多视角图像为车辆控制生成动作分布，在 CARLA Town05 基准中表现出色。

2.2 DIFFUSION MODELS FOR TRAJECTORY GENERATION

扩散模型最初在图像合成中备受推崇，现已被巧妙地重新用于轨迹生成。基于势能的扩散运动规划 (Luo et al., 2024) 通过采用学习到的势能函数为杂乱环境构建适应性运动规划，进一步增强了该领域的发展，展示了该方法的可扩展性和可转移性。NoMaD (Sridhar et al., 2024) 和 SkillDiffuser (Liang et al., 2024) 都提出了统一的框架，分别简化了以目标为导向的导航和基于技能的任务执行，其中 NoMaD 实现了改进的导航结果，而 SkillDiffuser 实现了可解释的高级指令跟踪。总之，扩散模型为轨迹规划提供了一种有前途的替代方案，可以替代基于模仿学习的端到端自动驾驶框架。由于固有的因果混淆，模仿学习模型可能会错误地将驾驶员的行为归因于错误的因果因素。相比之下，扩散模型可以通过学习潜在空间中的场景特征和驾驶员行为的联合分布来更好地捕捉潜在的因果关系，从而使模型能够正确地将真实原因与适当的行为联系起来。

2.3 LARGE LANGUAGE MODELS (LLMS) FOR TRAJECTORY EVALUATION

轨迹评分 (Fan et al., 2018) 在自动驾驶决策中起着至关重要的作用。基于规则的方法 (Treiber et al., 2000) 提供了强大的安全保障，但缺乏灵活性，而基于学习的方法 (Chitta et al., 2021; Prakash et al., 2021) 在开环任务中表现良好，但在闭环场景中表现不佳 (Treiber et al., 2000; Dauner et al., 2023)。最近，DriveLM (Sima et al., 2023) 将 VLM 集成到端到端驾驶系统中，通过感知、预测和规划问答对来建模图结构推理。然而，大型模型的生成结果可能包含幻觉，需要进一步的策略才能在自动驾驶中安全应用。VLM 的出现提出了一个问题：VLM 能否根据轨迹评分器自适应地调整驾驶风格，同时确保舒适度？

3 METHODOLOGY

在本节中，我们介绍 HE-Drive 的关键组件（图 2）：稀疏感知（第 3.1 节）、基于扩散的运动规划器（第 3.2 节）和由 VLM 引导的轨迹评分器（第 3.3 节）。
在这里插入图片描述

3.1 SPARSE PERCEPTION

HE-Drive 首先采用视觉编码器 (He et al., 2016) 从输入的多视角摄像机图像中提取多视角视觉特征（表示为 F）。随后，稀疏感知器 (Sun et al., 2024) 同时执行检测、跟踪和在线映射任务，从而提供更高效、更紧凑的周围环境 3D 表示 Θ（如图 2 所示）。

3.2 DIFFUSION-BASED MOTION PLANNER

图 2 展示了我们基于扩散的运动规划器的整体流程。我们采用基于 CNN 的扩散策略（Chi et al., 2024; Ze et al., 2024）作为基础，该策略由 1D 卷积层、上采样层和 FiLM（特征线性调制）层（Perez et al., 2018）组成的条件 U-Net 组成。

运动规划器扩散策略：我们的方法（图 7）采用条件去噪扩散概率模型 (DDPM)，这是一种通过使用变分推理训练的参数化马尔可夫链定义的生成模型，用于对条件分布 p(At|Ot) 进行建模。DDPM 包括一个前向过程，该过程逐渐将高斯噪声添加到输入数据中，将其转换为纯噪声，以及一个反向过程，该过程迭代地对噪声数据进行去噪以恢复原始数据。

具体而言，DDPM 的输入条件包括紧凑的 3D 表示 Θ、自我状态 e、历史预测轨迹 H 及其相应的速度 vi、加速度 ai 和偏航编码 θi。使用 FiLM (Perez et al., 2018) 将连接条件 C（包括观察 Ot 和上述相关条件）注入到网络的每个卷积层中。这种通道条件引导从自我位置到锚点位置的轨迹生成。去噪过程从形状为 [B, Na, Ti, P] 的高斯噪声 Akt 开始，其中 B 表示批量大小，Na 表示锚点数量，Ti 表示轨迹上导航点之间的间隔时间 (i = 0.5, 1, 1.5, 2, 2.5, 3)。P 表示每个间隔时间 Ti 的位置 (x, y)。使用去噪网络 ϵθ，通过 k 次迭代将噪声数据迭代细化为无噪声的 3 秒未来多模态轨迹 A0。每个轨迹 τi 表示为一组航路点 {(xt, yt)}Tit=1。逆向过程由以下方程描述：
在这里插入图片描述

其中 α 和 γ 是缩放因子，N(0, σ2, I) 表示均值为 0、方差为 σ2 的高斯噪声。我们的运动规划器利用 DDPM 的能力，通过迭代细化噪声数据（以相关输入变量为条件）来生成高质量样本。条件信息（包括紧凑的 3D 表示、自我状态、历史轨迹及其相应的速度、加速度和偏航编码）通过 FiLM 层整合到去噪网络中，从而能够生成考虑到周围环境和历史信息的多模态和强时间一致性轨迹。有关详细说明，请参阅附录 A.1。

3.3 VLMS-GUIDED TRAJECTORY SCORER

为了从 DDPM 生成的多模态轨迹中选择最合适的路径，我们引入了 VLMs-Guided Trajectory Scorer (VTS)，如图 3 所示。据我们所知，VTS 是第一个结合了可解释性和零样本驾驶推理能力的轨迹评分器。通过利用视觉语言模型 (VLM)，VTS 可以根据各种驾驶因素（例如碰撞概率和舒适度）有效地评估轨迹，从而实现透明的决策和对新驾驶场景的适应性，而无需进行大量微调（即终身评估）。

在这里插入图片描述

3.3.1 RULE-BASED TRAJECTORY SCORING STRATEGY

具体来说，我们使用以下成本函数的线性组合来对采样轨迹进行评分。总成本函数 Ctotal 由两个主要部分组成：安全成本 Csafety 和舒适成本 Ccomfort。

在这里插入图片描述
其中，dcoll 为与障碍物的最小距离，Ccoll 有效捕捉了车辆与障碍物距离与碰撞风险之间的关系。缩放因子 σcoll 设置为 1.0 米，以确保随着距离减小成本迅速增加，优先考虑避免碰撞。pend 和 ptarget 分别是终点和目标位置，Cdis 表示它们之间的欧几里得距离。N 是轨迹上的点数，θi 是第 i 个点的航向，θtarget 是目标航向。Cdeviation 测量轨迹与目标航向的累积偏差。¯v 是平均速度，vtarget 是目标速度，Cspeed 惩罚与目标速度的偏差。

这里，alat、alon 和 acent 分别是横向、纵向和向心加速度。舒适度成本 Ccomfort 旨在惩罚可能导致乘客不适的过大的横向、纵向和向心加速度。通过最小化这些加速度的最大绝对值，轨迹规划器旨在减少剧烈的左右移动、突然刹车或猛烈加速，并确保转弯时导航平稳。权重 wcoll、wdis、wdeviation、wspeed、wlat、wlon 和 wcent 平衡了每个子成本对总体成本函数的影响（见表 1），使轨迹规划器能够根据自动驾驶系统的具体要求优先考虑安全性和舒适性的不同方面。

3.3.2 VLMS HELP ADJUST DRIVING STYLE.

在这里插入图片描述
我们的 VLM 引导轨迹评分器（图 3）由两个阶段组成。在第一阶段，我们整理一个包含带注释的环绕图像的数据集，其中包括当前驾驶场景的描述、周围主体（即人类和车辆）的运动状态以及当前驾驶风格（即激进或保守）以及体重调整值。通过迭代对话，Llama 3.2V（Dubey 等人，2024 年）吸收了情境信息，从而减轻了模型幻觉。

在第二阶段，我们使用 GPT-4o（Achiam 等人，2023 年）生成一系列用于视觉问答 (VQA) 的提示模板。利用交通模式固有的时空稳定性，我们每五秒间歇性地激活 Llama 3.2V 以改进驾驶行为。该模型在处理新图像时会评估驾驶环境，并在基于规则的系统中校准预定义的安全性和舒适性参数的评分权重。这种方法允许精确调整成本权重，从而增强驾驶风格对不同场景的响应能力。通过将 VLM 用作驾驶风格调节器而不是直接决策者，我们可以减轻与模型幻觉相关的安全风险，并提高基于规则的轨迹评分器对新场景的适应性

3.4 END-TO-END DRIVING COMFORT METRIC

为了解决现有端到端方法中缺乏通用舒适度评估指标的问题，我们提出了一个通用指标来评估预测轨迹的舒适度和人性化程度 (Han et al., 2023)。我们提出的舒适度指标旨在量化预测轨迹与地面真实轨迹之间的相似性，同时考虑动态可行性、加速度和轨迹平滑度等因素。

考虑笛卡尔坐标系中简化的自行车运动学模型，我们描述了前轮驱动和转向的四轮车辆的动力学，该车辆完全滚动且无滑移。状态向量定义为 x = (px, py, θ, v, at, an, ϕ, κ)T，其中 p = (px, py)T 表示后轮中心的位置，v 是相对于车身框架的纵向速度，at 和 an 表示纵向和横向加速度，ϕ 是前轮的转向角，κ 是曲率。完整轨迹表示 σ(t) : [0, Ts] 公式如下：
在这里插入图片描述

在这里插入图片描述
通过计算每个方面的预测轨迹与地面真实轨迹之间的差异，并对每个时间范围的差异求和，我们得到了一个总体差异分数。分数越低，表示舒适度和与专家轨迹的相似度越高。最后，通过引入标准化因子，我们将舒适度指数表示为百分比，以便于进行比较分析。更多详细信息可在附录 A.2 中找到。

5 结论

本文介绍了 HE-Drive，这是一种新型的以人为中心的端到端自动驾驶系统，它解决了现有方法在实现时间一致性和乘客舒适度方面的局限性。HE-Drive 集成了稀疏感知模块、基于扩散的运动规划器和 Llama 3.2V 引导轨迹评分系统。稀疏感知模块通过统一检测、跟踪和在线映射实现了完全稀疏的场景表示。基于扩散的运动规划器在连续空间中生成多模态轨迹，确保时间一致性并模仿人类的决策。轨迹评分模块将基于规则的方法与 Llama 3.2V 相结合，以增强泛化、可解释性、稳定性和舒适度。大量实验表明，与开环和闭环数据集中的最先进方法相比，HE-Drive 的性能更优越，可以生成具有改进的时间一致性和乘客舒适度的类人轨迹。