CoT-VLA: Visual Chain-of-Thought Reasoning forVision-Language-Action Models论文学习

本文介绍了一种名为CoT-VLA(Visual Chain-of-Thought Reasoning for Vision-Language-Action Models)的方法,旨在通过引入显式的视觉推理步骤来增强机器人视觉-语言-动作(VLA)模型的性能。该方法通过预测未来的图像帧作为视觉目标(subgoal images),然后生成一系列动作以实现这些目标,从而提高机器人在复杂操作任务中的性能。CoT-VLA在模拟和真实世界的机器人操作任务中均表现出色,超越了现有的VLA模型。

背景知识

  • VLA模型:VLA模型通过结合预训练的视觉-语言模型(VLMs)和多样化的机器人演示数据,学习通用的传感器-电机控制。然而,现有的VLA模型主要关注直接的输入-输出映射,缺乏中间推理步骤,导致在复杂操作任务中表现不佳。

  • 链式思考(CoT):在语言领域,CoT通过逐步推理显著提高了大型语言模型(LLMs)的推理能力。本文将这一概念引入机器人领域,通过视觉目标图像作为中间推理步骤,使模型能够“视觉化地思考”。

研究方法

CoT-VLA框架

CoT-VLA的核心在于将视觉链式思考(Visual CoT)推理引入VLA模型。具体来说,该方法分为两个阶段:

  1. 视觉目标生成:模型首先预测一个未来时间点的图像帧(subgoal image),作为机器人计划状态的像素空间表示。

  2. 动作序列生成:模型根据当前观测和生成的视觉目标图像,生成一系列动作以实现该目标。

系统架构

CoT-VLA基于VILA-U模型构建,VILA-U是一个能够理解和生成文本和图像的统一多模态基础模型。CoT-VLA在训练时结合了机器人演示数据和无动作标注的视频数据,以增强视觉推理能力。

训练过程
  • 预训练阶段:CoT-VLA在机器人演示数据和无动作标注的视频数据上进行预训练,学习视觉目标生成和动作预测。

  • 适应阶段:在下游任务上,模型通过特定任务的机器人演示数据进行微调,以适应新的操作任务。

实验

实验设置
  • LIBERO模拟基准测试:包含四个任务套件,用于评估机器人对空间关系、物体交互和任务目标的理解能力。

  • Bridge-V2真实机器人实验:使用6自由度WidowX机械臂,包含45k语言标注的轨迹数据,用于评估视觉鲁棒性、运动泛化、语义泛化和语言接地能力。

  • Franka-Tabletop真实机器人实验:使用固定在桌面上的Franka Emika Panda 7自由度机械臂,评估模型对新真实世界环境的适应能力。

关键结论
  • 性能提升:CoT-VLA在LIBERO模拟环境中表现最佳或具有竞争力,与基线方法相比,在真实世界的Bridge-V2和Franka-Tabletop实验中也表现出色。

  • 视觉推理的重要性:通过在Franka-Tabletop实验中使用真实目标图像与生成目标图像的对比,发现改进的视觉推理能力可以显著提升任务性能。

  • 预训练的影响:预训练阶段显著提高了模型在下游任务上的适应能力,与直接在Franka-Tabletop数据上微调的模型相比,性能提升了46.7%。

研究贡献

  • 提出了一种新的视觉链式思考推理方法,通过生成视觉目标图像作为中间推理步骤,增强了VLA模型的性能。

  • 构建了CoT-VLA系统,结合了因果注意力和全注意力机制,以提高视觉和动作预测的性能。

  • 在模拟和真实世界的机器人操作任务中进行了广泛的评估,证明了视觉链式思考推理对VLA性能的提升效果。

限制与未来工作

  • 计算开销:生成中间图像令牌会显著增加计算开销,导致推理速度降低。

  • 图像生成质量:自回归图像生成的质量低于基于扩散模型的最新技术。

  • 动作连续性:动作分块方法可能导致动作之间的不连续性,缺乏高频反馈。

  • 泛化能力:尽管CoT-VLA利用了无动作标注的视频数据进行预训练,但其在新任务上的视觉推理泛化能力仍受限于当前的计算能力。

未来的工作将探索更快的图像生成和LLM推理技术,改进多模态模型的图像生成质量,并通过改进视觉推理和预测建模来增强泛化能力。

可以看到这里就是让vla幻想一个图像来代替一般的cot。

这里使用了两种不一样的注意力机制:因果注意力与全注意力。计算方法不同。

这里解释一下这里的全注意力:全注意力不是真的能看到未来的token。decoder不是要有输入才有输出嘛?这里只是看到了所有的输入而已,不是真能看到未来的自己应该输出的token.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值