CoT-VLA: Visual Chain-of-Thought Reasoning forVision-Language-Action Models论文学习

本文链接：https://blog.csdn.net/LI_XIAO_XING/article/details/149152388

本文介绍了一种名为CoT-VLA（Visual Chain-of-Thought Reasoning for Vision-Language-Action Models）的方法，旨在通过引入显式的视觉推理步骤来增强机器人视觉-语言-动作（VLA）模型的性能。该方法通过预测未来的图像帧作为视觉目标（subgoal images），然后生成一系列动作以实现这些目标，从而提高机器人在复杂操作任务中的性能。CoT-VLA在模拟和真实世界的机器人操作任务中均表现出色，超越了现有的VLA模型。

背景知识

VLA模型：VLA模型通过结合预训练的视觉-语言模型（VLMs）和多样化的机器人演示数据，学习通用的传感器-电机控制。然而，现有的VLA模型主要关注直接的输入-输出映射，缺乏中间推理步骤，导致在复杂操作任务中表现不佳。
链式思考（CoT）：在语言领域，CoT通过逐步推理显著提高了大型语言模型（LLMs）的推理能力。本文将这一概念引入机器人领域，通过视觉目标图像作为中间推理步骤，使模型能够“视觉化地思考”。

研究方法

CoT-VLA框架

CoT-VLA的核心在于将视觉链式思考（Visual CoT）推理引入VLA模型。具体来说，该方法分为两个阶段：

视觉目标生成：模型首先预测一个未来时间点的图像帧（subgoal image），作为机器人计划状态的像素空间表示。
动作序列生成：模型根据当前观测和生成的视觉目标图像，生成一系列动作以实现该目标。

系统架构

CoT-VLA基于VILA-U模型构建，VILA-U是一个能够理解和生成文本和图像的统一多模态基础模型。CoT-VLA在训练时结合了机器人演示数据和无动作标注的视频数据，以增强视觉推理能力。

训练过程

预训练阶段：CoT-VLA在机器人演示数据和无动作标注的视频数据上进行预训练，学习视觉目标生成和动作预测。
适应阶段：在下游任务上，模型通过特定任务的机器人演示数据进行微调，以适应新的操作任务。

实验

实验设置

LIBERO模拟基准测试：包含四个任务套件，用于评估机器人对空间关系、物体交互和任务目标的理解能力。
Bridge-V2真实机器人实验：使用6自由度WidowX机械臂，包含45k语言标注的轨迹数据，用于评估视觉鲁棒性、运动泛化、语义泛化和语言接地能力。
Franka-Tabletop真实机器人实验：使用固定在桌面上的Franka Emika Panda 7自由度机械臂，评估模型对新真实世界环境的适应能力。

关键结论

性能提升：CoT-VLA在LIBERO模拟环境中表现最佳或具有竞争力，与基线方法相比，在真实世界的Bridge-V2和Franka-Tabletop实验中也表现出色。
视觉推理的重要性：通过在Franka-Tabletop实验中使用真实目标图像与生成目标图像的对比，发现改进的视觉推理能力可以显著提升任务性能。
预训练的影响：预训练阶段显著提高了模型在下游任务上的适应能力，与直接在Franka-Tabletop数据上微调的模型相比，性能提升了46.7%。