大语言模型的自动驾驶 LMDrive/DriveVLM-Dual

大模型相关工作

CLIP

在这里插入图片描述

  • 核心思想:通过对比学习实现图像和文本的跨模态对齐,将两者映射到同一特征空间
  • 训练方式:
    • 对比预训练:批量处理(image, text)配对数据,正样本对特征相近,负样本对特征相远
    • 零样本分类:通过文本编码器生成类别描述的特征(如"a photo of a dog"),与图像特征计算相似度
  • 创新点:
    • 首次实现无需下游任务微调的零样本迁移能力
    • 使用4亿规模的网络图像-文本对进行训练
  • 局限性:无法处理复杂语义(如物体属性和空间关系)和多轮对话交互

BLIP-2

在这里插入图片描述

  • 核心贡献:提出轻量级Querying Transformer(Q-Former)桥接冻结的视觉编码器和语言模型

  • 两阶段训练:

    • 表示学习阶段:通过三种任务训练Q-Former:
      • 图像-文本对比学习(类似CLIP)
      • 基于图像的文本生成(单向注意力)
      • 图像-文本匹配(双向注意力)
    • 生成学习阶段:将Q-Former输出适配到冻结LLM的输入空间
  • 关键技术:

    • 特征降维:将高分辨率图像的数百token压缩至80个左右
    • 注意力掩码设计:根据不同任务需求控制query-text交互方式
  • 经济优势:仅需训练0.1%参数即可实现多模态能力,大幅降低计算成本
    在这里插入图片描述

  • 多任务训练:

    • 对比学习:图像和文本特征独立提取后比对
    • 文本生成:文本token可关注图像特征但禁止反向关注
    • 匹配分类:双向交互判断图像文本是否匹配

Qwen-VL

在这里插入图片描述

  • 三阶段训练:
    • 预训练:低分辨率图像+文本对基础对齐
    • 多任务微调:高分辨率图像+多样化任务(VQA、OCR等)
    • 监督微调:多轮对话数据增强交互能力
  • 能力特点:
    • 支持多图输入和长文本阅读理解
    • 实现细粒度视觉定位(如指出图中特定区域)
    • 多语言对话能力(中英文混合)
  • 与BLIP-2区别:全参数微调视觉和语言模型,需要更大计算资源

DriveGPT4

在这里插入图片描述

  • 核心创新:将自动驾驶场景理解转化为语言模型任务

  • 数据增强:

    • 使用YOLOv8检测环境物体
    • 通过ChatGPT自动生成丰富QA对(比原始BDD-X数据量增加40倍)
  • 双阶段训练:

    • 59.5万视频+70.3万图像预训练对齐模块
    • 7.3万视频+15万图像混合微调
  • 多任务输出:

    • 自然语言解释驾驶行为(“因红灯停车”)
    • 直接预测控制信号(速度,转向角)
    • 风险提示和驾驶建议
    • 在这里插入图片描述
  • 可解释性设计:

    • Action Description:当前行为描述(如"向右变道")
    • Action Justification:行为依据(如"右侧车道车流更快")
    • 控制信号预测:未来时段的连续运动参数
  • 领域优势:

    • 准确理解驾驶场景动态变化
    • 数值控制信号预测能力(GPT-4V无法实现)
    • 专业风险识别(如盲区车辆预判)

LMDrive 闭环自动驾驶

摘要

  • 创新点: 提出首个语言引导的闭环端到端驾驶框架LMDrive,整合多模态传感器数据和自然语言指令
  • 核心功能: 实时处理"Turn right at next intersection"等导航指令和"Watch for walkers up front"等注意指令
  • 问题背景: 现有自动驾驶系统在长尾突发事件和复杂城市场景中表现不佳,缺乏语言理解和人机交互能力
  • 数据集贡献: 公开包含64K指令跟随数据片段的数据集和LangAuto基准测试

本文贡献

  • 框架创新:
    • 闭环系统: 首个基于LLM的闭环端到端自动驾驶框架,支持持续驾驶
    • 多模态整合: 同时处理多视角相机、LiDAR数据和语言指令
  • 数据资源:
    • 64K数据片段: 每个片段包含2-20秒的导航指令、注意指令、传感器数据和控制信号
    • LangAuto基准: 测试误导/长指令和对抗性驾驶场景的处理能力

数据准备

  • 指令类型:
    • 导航指令: “Just move to the left and get ready to leave the highway”
    • 注意指令: “Please watch out for the pedestrians up ahead”
  • 多样化设计:
    • Follow类: “Maintain your current course until the upcoming intersection”
    • Turn类: “After [x] meters, take a left”
    • Notice类: “Watch for walkers up front”(使用表示具体距离数值)

模型结构

在这里插入图片描述

  • 双组件设计:

    • 视觉编码器: 处理多视角RGB和LiDAR数据,生成视觉token
    • 语言模型组件: 包含tokenizer、Q-Former和适配器,处理历史视觉token和语言指令
  • 输出机制:

    • 控制信号预测: 通过PID控制器转换为刹车、油门和转向信号
    • 指令完成检测: 判断当前帧是否已完成给定指令(如"前方50米左转"的完成状态)
  • 感知模块预训练框架
    在这里插入图片描述

  • 预训练任务:

    • 目标检测: 生成BEV地图token
    • 交通灯状态分类: 输出交通灯状态token
    • 未来路径点预测: 通过GRU生成路径点token
  • 训练阶段:

    • 预训练阶段: 保留预测头进行监督学习
    • 微调阶段: 冻结视觉编码器,仅生成视觉token供LLM使用

损失函数

  • 多任务学习:
    • 路径点损失:损失函数用于轨迹预测
    • 分类损失: 交叉熵损失判断指令完成状态
  • 时序监督:
    • 历史帧预测: 训练时对所有历史帧进行预测增强监督信号
  • 推理优化: 仅执行最新帧的预测以提高效率

消融实验

不同backbone比较
  • 性能对比:
    • 多模态优势: LLaVA-v1.5(36.2 DS)优于单模态LLaMA(31.3 DS)和Vicuna(33.5 DS)
  • 规模效应: 参数量越大性能越好,但计算成本增加
  • 评估指标:
    • DS(驾驶分数)、RC(路线完成率)、IS(违规分数)三个维度综合评估
关键发现

在这里插入图片描述

  • Q-Former必要性: 去除后DS从36.2降至31.7,显示跨模态对齐的重要性
  • BEV tokens贡献: 不使用BEV token导致IS从0.81降至0.72
  • 预训练关键性: 无视觉预训练时性能急剧下降(DS 16.9)
不同实验设定

在这里插入图片描述

  • 场景分类:
    • LangAuto: 基础路线(>500米)
    • LangAuto-Short: 中等路线(150-500米)
    • LangAuto-Tiny: 短路线(<150米)
  • 扩展场景:
    • Notice轨道: 增加实时注意指令模拟乘客提醒
    • Sequential轨道: 合并连续2-3条指令测试长指令理解
  • 不同实验设定的比较
    在这里插入图片描述
    在这里插入图片描述
    • Notice效果:

      • 安全提升: 加入注意指令后行人碰撞从0.03降至0.01
      • 违规减少: 闯红灯违规从1.18降至0.56
    • Sequential挑战:

      • 性能下降: DS从36.2降至34.0,显示合并指令增加理解难度
    • ChatGPT辅助生成指示
      在这里插入图片描述

      • 多样化生成:
        • 变体创建: 对"Turn Right"生成8种不同表达方式
        • 错误指令: 包含"Change to left-hand lane"(单车道)等违规指令
      • 鲁棒性训练:
        • 误导指令处理: 模型能拒绝"right on left-only lane"等错误指令
        • 多指令组合: 测试"turn right up ahead and proceeding along this route"等复杂指令理解能力

快慢双系统自动驾驶

方法

  • 场景描述
    在这里插入图片描述

    • 环境总结: 输出天气(Ewhether)、时间(Etime)、道路类型(Eroad)和车道状况(Elane)等关键环境要素,例如"晴天/白天/城市道路/右车道不可通行"
    • 危险目标识别: 检测可能影响驾驶决策的关键对象,如警车、施工区域等,需记录其类别和位置坐标(xi,yi)
    • 数据形式: 结构化输出包含环境总结和危险目标列表,如图2所示案例中的施工人员与施工区域标注
  • 场景分析
    在这里插入图片描述

    • 目标特性分析: 对危险目标进行三维度解析:

      • 静态属性(Cs): 如卡车超限货物、路边广告牌等固有特征
      • 运动状态(Cm): 包含位置、方向等动态信息,用于预测轨迹
      • 特殊行为(Cb): 如交警手势等直接影响驾驶决策的行为
    • 场景总结: 生成high-level的综合性描述,如"当前车辆正以恒定速度行驶,前方道路左侧有3名施工人员"

  • 多层级规划
    在这里插入图片描述

    • 元动作生成: 从17类预定义动作中选择,如减速/左转/换道等,形成序列A={a1,a2,a3…}

    • 决策描述: 细化动作为三元组(动作A+对象+S 时长D),例如"等待(A)行人(S)通过后(D)加速"

    • 轨迹生成: 输出未来时段内的路径点,Δt时间间隔为
      在这里插入图片描述

    • 执行流程: 先通过语言交互生成粗粒度策略,再逐步细化为可执行轨迹

快慢双系统

在这里插入图片描述

  • 系统构成:
    • DriveVLM: 纯VLM系统,通过思维链(CoT)机制实现2Hz低频推理
    • DriveVLM-Dual: 融合传统AD模块(3D感知+轨迹规划)实现30Hz高频输出
  • 感知匹配:
    • 通过改进IoU算法(αIOU > t)对齐VLM识别的关键对象O_critical与3D检测结果O_3d
    • 匹配对象用于增强提示,未匹配对象单独处理
  • 轨迹优化:
    • 低频轨迹Wslow作为传统规划器的初始解
    • 优化公式:f为附加特征
      在这里插入图片描述
  • 实时性: 在Orin平台实现0.3s/场景的推理速度,与传统AD系统相当

总结

  • 核心价值:

    • 解释性: 通过场景描述和分析提供决策依据(如"因右侧警车需左偏")
    • 数据增强: 利用GPT-4生成多样化动作序列(如4种变道方案)
    • 评估体系: 采用GPT-4V量化评估场景描述的准确性(相似度评分机制)
  • 实验表现:

    • 在SUP-AD数据集上,Qwen驱动的DriveVLM在场景描述(0.71)和元动作(0.37)指标显著优于GPT-4V
    • nuScenes测试中,Dual系统将3s碰撞率从0.35%降至0.10%,L2误差降低37%
  • 未来方向:

    • 数据获取: 构建自动化pipeline挖掘长尾场景
    • 系统融合: 探索中间层特征交互而不仅是最终轨迹融合
    • 实时优化: 平衡VLM推理质量(1.5s/场景)与实时性要求(0.3s/场景)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值