本文介绍了一种名为CoT-VLA(Visual Chain-of-Thought Reasoning for Vision-Language-Action Models)的方法,旨在通过引入显式的视觉推理步骤来增强机器人视觉-语言-动作(VLA)模型的性能。该方法通过预测未来的图像帧作为视觉目标(subgoal images),然后生成一系列动作以实现这些目标,从而提高机器人在复杂操作任务中的性能。CoT-VLA在模拟和真实世界的机器人操作任务中均表现出色,超越了现有的VLA模型。
背景知识
-
VLA模型:VLA模型通过结合预训练的视觉-语言模型(VLMs)和多样化的机器人演示数据,学习通用的传感器-电机控制。然而,现有的VLA模型主要关注直接的输入-输出映射,缺乏中间推理步骤,导致在复杂操作任务中表现不佳。
-
链式思考(CoT):在语言领域,CoT通过逐步推理显著提高了大型语言模型(LLMs)的推理能力。本文将这一概念引入机器人领域,通过视觉目标图像作为中间推理步骤,使模型能够“视觉化地思考”。
研究方法
CoT-VLA框架
CoT-VLA的核心在于将视觉链式思考(Visual CoT)推理引入VLA模型。具体来说,该方法分为两个阶段:
-
视觉目标生成:模型首先预测一个未来时间点的图像帧(subgoal image),作为机器人计划状态的像素空间表示。
-
动作序列生成:模型根据当前观测和生成的视觉目标图像,生成一系列动作以实现该目标。
系统架构
CoT-VLA基于VILA-U模型构建,VILA-U是一个能够理解和生成文本和图像的统一多模态基础模型。CoT-VLA在训练时结合了机器人演示数据和无动作标注的视频数据,以增强视觉推理能力。
训练过程
-
预训练阶段:CoT-VLA在机器人演示数据和无动作标注的视频数据上进行预训练,学习视觉目标生成和动作预测。
-
适应阶段:在下游任务上,模型通过特定任务的机器人演示数据进行微调,以适应新的操作任务。
实验
实验设置
-
LIBERO模拟基准测试:包含四个任务套件,用于评估机器人对空间关系、物体交互和任务目标的理解能力。
-
Bridge-V2真实机器人实验:使用6自由度WidowX机械臂,包含45k语言标注的轨迹数据,用于评估视觉鲁棒性、运动泛化、语义泛化和语言接地能力。
-
Franka-Tabletop真实机器人实验:使用固定在桌面上的Franka Emika Panda 7自由度机械臂,评估模型对新真实世界环境的适应能力。
关键结论
-
性能提升:CoT-VLA在LIBERO模拟环境中表现最佳或具有竞争力,与基线方法相比,在真实世界的Bridge-V2和Franka-Tabletop实验中也表现出色。
-
视觉推理的重要性:通过在Franka-Tabletop实验中使用真实目标图像与生成目标图像的对比,发现改进的视觉推理能力可以显著提升任务性能。
-
预训练的影响:预训练阶段显著提高了模型在下游任务上的适应能力,与直接在Franka-Tabletop数据上微调的模型相比,性能提升了46.7%。
研究贡献
-
提出了一种新的视觉链式思考推理方法,通过生成视觉目标图像作为中间推理步骤,增强了VLA模型的性能。
-
构建了CoT-VLA系统,结合了因果注意力和全注意力机制,以提高视觉和动作预测的性能。
-
在模拟和真实世界的机器人操作任务中进行了广泛的评估,证明了视觉链式思考推理对VLA性能的提升效果。
限制与未来工作
-
计算开销:生成中间图像令牌会显著增加计算开销,导致推理速度降低。
-
图像生成质量:自回归图像生成的质量低于基于扩散模型的最新技术。
-
动作连续性:动作分块方法可能导致动作之间的不连续性,缺乏高频反馈。
-
泛化能力:尽管CoT-VLA利用了无动作标注的视频数据进行预训练,但其在新任务上的视觉推理泛化能力仍受限于当前的计算能力。
未来的工作将探索更快的图像生成和LLM推理技术,改进多模态模型的图像生成质量,并通过改进视觉推理和预测建模来增强泛化能力。
可以看到这里就是让vla幻想一个图像来代替一般的cot。
这里使用了两种不一样的注意力机制:因果注意力与全注意力。计算方法不同。
这里解释一下这里的全注意力:全注意力不是真的能看到未来的token。decoder不是要有输入才有输出嘛?这里只是看到了所有的输入而已,不是真能看到未来的自己应该输出的token.