论文速读《A Survey on Vision-Language-Action Models for Autonomous Driving:视觉-语言-行动融合的智能驾驶新范式》

0. 引言:自动驾驶技术的范式演进

自动驾驶技术正经历着从传统模块化架构向智能化融合系统的深刻变革。在这个技术演进的关键节点,视觉-语言-行动(Vision-Language-Action, VLA)模型的出现标志着自动驾驶领域的一次重要突破。这种新型架构将计算机视觉、自然语言处理和动作控制三大核心技术有机融合,为构建更加智能、可解释且人性化的自动驾驶系统开辟了新的道路。

传统的自动驾驶系统采用模块化设计,将感知、预测、规划和控制分离处理,虽然结构清晰但存在信息传递损失和错误累积等问题。而VLA模型通过统一的端到端架构,实现了从环境感知到驾驶决策的连续映射,不仅提高了系统的响应速度和准确性,更重要的是赋予了车辆理解自然语言指令和进行复杂推理的能力。

1. VLA模型的核心架构与工作原理

VLA模型的核心在于其独特的三模态融合架构,该架构由输入层、处理层和输出层三个主要部分组成。输入层负责接收多模态传感器数据,包括摄像头图像、激光雷达点云、毫米波雷达信号以及自然语言指令。这些异构数据首先通过专门的编码器转换为统一的向量表示,为后续的融合处理奠定基础。

处理层是VLA模型的核心,它包含视觉编码器、语言处理器和动作解码器三个关键模块。视觉编码器通常基于大型预训练模型如DINOv2或CLIP构建,能够从原始图像中提取丰富的语义特征。语言处理器则采用GPT或LLaMA等大语言模型,负责理解自然语言指令并进行推理。动作解码器则将融合后的多模态特征映射为具体的驾驶动作,可以是低级的控制信号如方向盘转角,也可以是高级的轨迹规划。

基础模型,如视觉语言模型(VLMs)和大型语言模型(LLMs)的进展,已将强大的语义先验引入驾驶感知。通过将像素与文本对齐,这些模型可以解释场景、回答问题或检索传统检测器可能遗漏的上下文信息。早期的适配改进了对稀有物体的泛化能力,并提供了人类可读的解释,例如描述救护车的轨迹或解释红灯停车的原因。然而,VLM 增强的堆栈仍然是被动性的:它们推理场景但不会决定做什么。它们的语言输出与低级控制松散耦合,并可能虚构危险或误解口语指令。简而言之,虽然 VLMs 增强了可解释性,但它们并未解决行动差距问题。
在这里插入图片描述

因此,近期工作提出了一种更集成的范式:融合摄像头流、自然语言指令和低级控制的单一策略的 VLA 模型。这种架构设计的优势在于,它能够在统一的框架内处理视觉感知、语言理解和动作生成,避免了传统模块化系统中各组件之间的信息损失和协调困难。同时,通过引入语言模态,VLA模型具备了理解复杂指令和进行推理的能力,使得自动驾驶系统能够更好地适应各种复杂场景。

尽管目前已有几篇综述涵盖了 LLMs 和 VLMs 在自动驾驶中的应用,但还没有一篇综述涉及快速兴起的 VLA 范式在自动驾驶中的应用。为了填补这一空白并整合这一快速发展的研究领域,我们提出了第一篇关于 VLA4AD 的全面综述。我们首先明确了关键术语,并将 VLA 与传统端到端驾驶联系起来。然后,我们提炼了常见的架构模式,并收录了二十多个代表性模型及其支持的数据集。此外,我们比较了训练范式,并总结了联合评估控制性能和语言保真度的评估协议。最后,我们概述了开放性挑战,并描绘了有前景的未来方向。我们还强调了标准化基准和开源工具包的必要性,以促进可重复性和加速跨模型比较。我们的目标是提供一份连贯且具有前瞻性的参考,阐述视觉、语言和行动如何融合,塑造下一代透明、指令跟随和社会合规的自动驾驶汽车。

2. 从解释器到决策者:VLA模型的演进历程

VLA模型的发展经历了四个重要阶段,每个阶段都代表了技术理念和实现方式的重大突破。第一阶段是语言模型作为解释器的时期,此时的语言模型主要用于描述驾驶场景和解释系统行为,但并未直接参与车辆控制。这一阶段的代表工作包括DriveGPT-4等模型,它们能够生成自然语言描述来增强系统的可解释性,但存在延迟高和效率低等问题

第二阶段是模块化VLA模型的出现,语言开始从被动的描述者转变为主动的规划组件。这一阶段的模型如OpenDriveVLA和CoVLA-Agent,能够将自然语言指令转换为中间规划表示,然后再映射为具体的驾驶动作。虽然这种方法显著缩小了语言指令和车辆动作之间的语义差距,但仍依赖于多阶段处理流程,存在延迟和级联错误的风险。

第三阶段是统一的端到端VLA模型,受益于大型多模态基础模型的出现,研究者开始构建完全统一的网络。这一阶段的代表工作包括EMMA、SimLingo和DiffVLA等,它们能够在一个单一的前向传播中将传感器输入直接映射到轨迹或控制信号。这些模型在感觉运动映射方面表现出色,但在长时程规划和细粒度决策解释方面仍存在挑战。

第四阶段是推理增强的VLA模型,这是最新的发展浪潮,将VLM/LLM置于控制环路的核心位置。这一阶段的模型如ORION、Impromptu VLA和AutoVLA,不仅能够进行实时决策,还能够进行长时程推理、记忆和交互,为构建真正智能的自动驾驶系统奠定了基础。

3. 多模态数据融合:VLA模型的技术基石

VLA模型的核心优势在于其强大的多模态数据融合能力。视觉数据作为自动驾驶系统的核心输入,已经从早期的单前视摄像头发展到如今的多摄像头环视系统。现代VLA模型能够处理来自多个摄像头的图像数据,并通过鸟瞰图(BEV)投影等技术将2D图像转换为3D空间表示,为空间推理提供支持。

在这里插入图片描述

3.1 多模态输入和语言指令

VLA4AD 依赖于丰富的多模态传感器流和语言输入,以捕捉外部环境和驾驶员的高级意图。

3.1.1 视觉数据

人类严重依赖视觉输入来导航复杂的驾驶环境,自主系统也是如此。在早期方法中,单目前置摄像头是标准的视觉模态[146, 89, 63]。随着时间的推移,为了提高空间覆盖范围和安全性,系统演变为包括立体摄像头、多摄像头设置,并最终发展为全周视系统[8, 116]。这种更丰富的视觉输入使得场景理解和多目标推理更加鲁棒。原始图像可以直接处理,或转换为结构化的中间表示,例如便于空间推理的鸟瞰图(BEV)地图[21, 139]。最近的研究进一步探索了输入分辨率和模型效率之间的权衡,针对实时或长尾情况动态调整粒度[167]。

3.1.2 其他传感器数据

超越视觉,自动驾驶汽车越来越多地利用多样化的传感器模态来补充和实现感知,以增强空间能力。最初的系统集成了 LiDAR 以实现精确的 3D 结构,后来将其与 RADAR 结合用于速度估计,并与 IMUs 结合用于运动跟踪。GPS 模块提供全球定位[8, 133]。该领域也越来越关注本体感觉数据,如转向角、油门和加速度,特别是在行为预测和闭环控制方面[20, 134, 142]。这一从几何到动力学的进展推动了研究更复杂的传感器融合框架[67, 5, 129, 10],旨在创建环境的统一时空表示。

3.1.3 语言输入

自然语言输入——如指令、查询和结构化描述——在 VLA4AD 中变得越来越重要。早期研究主要集中于直接导航指令(例如,“在下一个十字路口左转”,“停在红色汽车后面”)以实现基本指令遵循[96, 105]。随着系统成熟,环境查询应运而生,允许用户或代理提出诸如“现在变道安全吗?”或“这里的限速是多少?”等问题[93, 51],从而实现交互式情境感知。进一步的发展引入了任务级别的语言规范,例如解释交通规则、解析高级目标或理解用自然语言表达的基于地图的约束[33]。最近的努力则朝着多轮对话、推理链(例如,思维链提示)[119, 50]和工具增强型语言界面[88, 41, 99]的方向发展,这些技术支持更丰富的推理形式,并与人类决策过程保持一致。

最后,近期的研究也开始将口语作为更自然和具身化的输入模态,通过语音驱动的界面连接感知和交互[148, 165]。从静态指令到对话驱动、多步推理的进展反映了更广泛的趋势:不仅使用语言来控制车辆,还使用语言来实现可解释和协作的自主性。

3.2 核心架构模块

VLA4AD 的基本架构将视觉感知、语言理解和行动生成集成在一个连贯的管道中。

3.2.1 视觉编码器

原始图像和传感器数据通过 DINOv2 [94]、ConvNeXt-V2 [135] 或 CLIP [102] 等大型自监督主干网络转换为潜在表示。许多视觉-语言-动作 (VLA) 系统采用鸟瞰图 (BEV) 投影 [119],而其他系统则通过点云编码器(例如 PointVLA [67])或体素模块(3)

3.2.2 语言处理器

自然语言通过 LLaMA2 [121] 或 GPT 风格的转换器 [6] 等预训练解码器进行处理。指令微调变体(例如视觉指令微调 [74])和检索增强提示(RAG-Driver [148])注入领域知识。轻量级微调策略(例如 LoRA [42])可实现高效适应。

3.2.3 动作解码器

下游控制通过以下方式发出:(i) 自回归标记器,其中按顺序预测离散动作或轨迹航点[98, 64, 48, 168];(ii) 扩散头,对融合嵌入条件下的连续控制进行采样(DiffVLA [57];Diffusion-VLA [130]),或 (iii) GRPO [113] 或 DPO[103] 微调管道使用的流匹配/策略梯度专家[137, 70]。分层控制器(例如,ORION [30])允许语言规划器将子目标草图分派给单独的低级 PID 或 MPC 堆栈。

3.3 驾驶输出

3.3.1 低级动作

早期的 VLA4AD 系统通常专注于直接预测原始控制信号,如转向角、油门和制动。这些动作通常被建模为连续输出或离散动作标记,适合与 PID 或端到端控制流程集成[30, 165, 143, 98]。虽然这种表述允许进行细粒度控制,但它通常对小的感知误差很敏感,并且缺乏长时程规划能力。

3.3.2 轨迹规划

后续研究转向轨迹或航点级别的预测,这提供了更稳定和可解释的中间表示。这些轨迹通常用 BEV 或自中心坐标表示,可以通过模型预测控制(MPC)或其他下游规划器灵活执行[96, 44, 59, 57, 3, 155]。这种表述允许 VLA 模型在更长的时间范围内进行推理,并更有效地整合多模态上下文。

这些输出格式共同展示了 VLA4AD 系统不断发展的雄心:不仅能够驾驶,而且能够稳健、可解释和基于上下文地驾驶。总之,一个典型的 VLA4AD 模型将多模态传感器数据和自然语言输入作为上下文,并产生驾驶决策(在不同抽象层次上)以及在某些情况下基于语言的解释。
在这里插入图片描述

3.4 Pre-VLA: 语言模型作为解释者

最早的探索将语言以被动、描述性的角色集成,以增强可解释性。在这个阶段,典型的流程采用一个冻结的视觉模型(例如 CLIP[102])和一个 LLM 解码器来用自然语言解释驾驶场景或推荐动作,而不会直接输出控制。例如,DriveGPT-4 [141] 会取一张前视摄像头图像,并产生文本描述或高级操作标签(“减速”、“向左转”)。这些输出有助于解释感知系统看到的内容或意图,提高了透明度。然而,实际的车辆控制仍然由传统模块(PID 控制器等)处理,因此语言只是一个覆盖层,而不是决策制定的组成部分。此外,两个问题变得明显:(i) 为每一帧生成长描述引入了延迟,因为视觉编码器每张图像处理数千个标记[168];(ii) 通用视觉编码器在无关紧要的细节上浪费了精力,因为图像中并非所有内容都与驾驶相关[150]。 研究人员对此进行了优化,例如 TS-VLM [11],它使用文本引导的软注意力池化来聚焦关键区域,以及 DynRsl-VLM [167],它动态调整输入分辨率以平衡速度和细节。这些改进了效率,但仍然存在语义差距——描述或标记场景与生成精确的转向或制动指令并不相同。弥合这个差距是下一步合乎逻辑的步骤。

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

4. 未来发展方向与前景展望

VLA模型的发展前景广阔,未来可能沿着五个主要方向发展。首先是基础驾驶大模型的构建,类似于GPT风格的"驾驶骨干"基础模型,通过在海量的多传感器数据和文本化交通规则上进行自监督训练而得。这种模型将使得汽车制造商或开发者只需通过提示工程或低秩适应等技术,用少量数据就能适应特定的下游任务。

其次是神经-符号安全内核的发展,将神经网络的灵活性与符号逻辑的可验证性相结合。未来的趋势是让VLA模型输出结构化的行动计划,然后由符号验证器来执行这个计划,确保每个决策都既智能又合规。SafeAuto和ORION等模型已经展现了这种混合架构的雏形。

第三是车队级持续学习,部署在真实世界中的自动驾驶车队每天都会遇到新的危险和场景。未来的车辆可以上传简洁的语言片段来描述新情况,云端平台将这些信息聚合起来用于模型的课程化更新,甚至云端智能体还能实时回答路上车辆遇到的不确定性问题。

第四是标准化交通语言的建立,正如航空业拥有全球统一的ICAO通话术语,广域的车辆协同也需要一套标准化的信息集。VLA模型是天生的"翻译家",可以将原始的感知数据翻译成规范化的、可供车辆间交换的意图。

最后是跨模态社交智能的发展,未来的VLA系统必须将手势、声音、交通标志等更广泛的"语言"信道纳入理解范围。系统需要能识别警察的手势或行人的挥手示意,并能通过车灯、车载显示屏或喇叭等方式产生明确的、人类可读的响应。

5. 结论:迈向智能驾驶的新时代

VLA模型的出现标志着自动驾驶技术进入了一个新的发展阶段。通过整合视觉、语言与行动三大能力,VLA模型不仅能够实现更加智能和安全的驾驶,还能够与人类进行自然交互,理解复杂的指令并进行推理。这种技术范式为构建真正的人性化自动驾驶系统提供了可能。

然而,VLA模型的发展仍面临诸多挑战,包括鲁棒性、实时性、数据稀缺等问题。解决这些问题需要跨学科的合作,涉及计算机视觉、自然语言处理、机器人学、认知科学等多个领域。同时,还需要建立完善的安全验证机制和评估标准,确保VLA模型在实际部署中的安全性和可靠性。

展望未来,VLA模型有望成为下一代自动驾驶系统的核心技术,推动自动驾驶从简单的环境感知和路径规划向真正的智能决策和人性化交互转变。随着技术的不断进步和应用的不断深入,我们有理由相信,VLA模型将为构建更加安全、高效、人性化的智能交通系统做出重要贡献,最终实现自动驾驶技术的广泛应用和普及。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

敢敢のwings

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值