Embodied-R1：通用机器人操作的强化具身推理

三谷秋水

于 2025-08-24 00:15:00 发布

阅读量602

点赞数 8

CC 4.0 BY-SA版权

分类专栏：智能体计算机视觉机器学习文章标签：机器人人工智能机器学习计算机视觉

本文链接：https://blog.csdn.net/yorkhunter/article/details/150645982

智能体同时被 3 个专栏收录

607 篇文章

订阅专栏

机器学习

584 篇文章

订阅专栏

计算机视觉

554 篇文章

订阅专栏

25年8月来自天津大学的论文“Embodied-R1: Reinforced Embodied Reasoning for General Robotic Manipulation”。

由于数据稀缺和体现异质性，体现人工智能的泛化受到“看与做”差距的阻碍。为了解决这个问题，本文将“指向（pointing）”作为一种统一的、与具身无关的中间表示，定义四种核心具身指向能力，将高级视觉语言理解与低级动作原语联系起来。其推出 Embodied-R1，一个专为具身推理和指向而设计的 3B 视觉-语言模型 (VLM)。用广泛的具身和通用视觉推理数据集作为来源，构建一个大规模数据集 Embodied-Points-200K，该数据集支持关键的具身指向能力。然后，用具有专门多任务奖励设计的两阶段强化微调 (RFT) 课程来训练 Embodied-R1。Embodied-R1 在 11 个具身空间和指向基准上实现最佳性能。至关重要的是，它展现强大的零样本泛化能力，在 SIMPLEREnv 数据集中实现 56.2% 的成功率，在 8 个真实 XArm 任务中实现 87.5% 的成功率，无需任何特定任务的微调，比强基线模型提升 62%。此外，该模型对各种视觉干扰表现出高度的鲁棒性。

视觉-语言模型 (VLM) 的最新进展 (Liu et al. (2024b)、Bai et al. (2025b)) 激发了新一波视觉-语言-动作 (VLA) 模型 (Kim et al. (2024)) 的诞生，旨在增强机器人操作的泛化能力。虽然这些模型表现出强大的视觉感知能力并擅长模仿专家演示，但它们的操作性能在新的环境中往往会显著下降。这种关键的差距被广泛认为是“看与做”的差距 (Yuan et al. (2025))：无法将丰富的感知理解可靠地转化为有效的机器人动作。这种差距主要归因于两个关键挑战：(a) 数据稀缺，有限的具身数据无法充分将语言和视觉与物理动作联系起来 (Walke et al. (2023)、Lin et al. (2024))，以及 (b) 异质性，不同的机器人形态阻碍了知识的可迁移性。

社区已经探索了多种 VLA 范式。端到端 VLA（Kim (2024) 和 Nasiriany (2024)）旨在学习从多模态输入到动作空间的直接映射。然而，现实世界中对齐的动作模态与预训练的网络空间数据之间存在根本性的不匹配，这可能导致知识遗忘和任务冲突。仅在有限的具身数据集上训练端到端 VLA 会阻碍零样本泛化能力的提升。另一方面，模块化 VLA（Huang (2024c)、Liu (2024a) 和 Qi (2025)）将强大的专用视觉模型串联在一起，并为物体和抓握检测等原子步骤设计流程。然而，此类方法容易出现级联故障，难以调优，并且推理延迟相对较高。此外，此类分解系统通常缺乏对场景级空间关系的整体理解。Affordance VLA（Li，2024b 和 Yuan，2025，2024b）通过训练专门的具身 VLM 来预测中间视觉辅助，为实现更集成的解决方案提供了一种有希望的方法。尽管它们潜力巨大，但它们缺乏对决策所需的全面视觉辅助的支持。Robobrain （Ji，2025）和 FSD（Yuan，2025）使用边框来标记物体或affordance，并利用视觉轨迹来捕捉任务的动态。此外，Robopoint（Yuan，2024b）专注于自由空间内的目标区域。然而，所有这些方法都只能满足有限的任务需求，因为不同的任务通常需要更丰富的视觉辅助和更全面的具身基础。FSD 提供了一个至关重要的见解：具身推理可以有效地将任务指令锚定到正确的语义实体上。然而，FSD 是通过 SFT 在固定的思维链 (CoT) 推理模板上进行训练的；其思维过程缺乏灵活性，这限制了其推广到新任务的能力。

总结 Deitke (2024)、Xu (2025)、Yuan (2025) 等前期研究的观察结果，本文提出指向（pointing）是一种高度直观且有效的选择，能够将高级理解与可泛化的动作预测联系起来。Yuan (2024b)、Deitke (2024) 提出的以点为中心的表示方法，将丰富的语义和空间信息统一为紧凑而准确的操作过程表示，其中包括目标身份（目标是什么？）、功能 affordance（如何使用/抓取它？）、期望的目标位置（“应该放在哪里”），甚至可以通过视觉轨迹隐式地传达动作的执行过程（“如何执行任务？”）。为了全面评估具身推理和指向能力，定义四项关键能力：参考表达落地（REG）、区域参考落地（RRG）、目标功能落地（OFG）和视觉轨迹生成（VTG）。如图展示这些指向能力：

请添加图片描述

然后，本文提出 Embodied-R1，一种先进的具身推理 VLM，其核心机制是通过“指向”实现物体和空间概念的统一锚定，从而掌握通用的机器人操作能力。如图所示，Embodied-R1 首先生成详细的推理过程，然后提供答案。仅使用 3B 模型参数，Embodied-R1 在多个空间理解和精确的具身指向基准测试中取得了最佳性能。Embodied-R1 还可以直接生成指向信号，以指导高效的机器人操作。通过将指向作为中间层表示，Embodied-R1 将其推理建立在通用的视觉感知任务上。这种方法避免了直接预测低级、特定于具体实施动作的陷阱，从而保留并充分利用了预训练 VLM 固有的强大视觉泛化能力。

请添加图片描述

Embodied-R1 的架构与功能

Embodied-R1 沿用 Bai (2025a) 提出的 Qwen2.5-VL 模型的基本架构，该架构由三个组件组成：视觉 transformer (ViT) 作为视觉编码器、投影器和 LLM。给定多模态输入 x = (I, Q)，其中 I 表示图像，Q 表示文本指令，该模型自回归预测文本响应 y。Embodied-R1 专为具身操控而设计，可增强空间推理和具身指向能力。定义四种基本的具身指向能力。假设这些以点为中心的表征可以充当感知和行动之间与具身无关的中介（克服异质性）。这种统一的表征，使得模型能够在大规模互联网数据集（来自网络空间）和具身机器人数据集（来自物理世界）上进行训练（克服数据稀缺性），从而促进对新场景和任务的稳健泛化。

所有核心能力都是在宽度为 w、高度为 h 的图像上生成一个坐标点 p = (p, q) ∈ [0, w] × [0, h]。但它在语义目的和输出结构上有所不同：1）参考表达落地 (REG)：该能力通过语言描述定位目标，在其对应的掩码内生成一个点。它使机器人能够通过自然语言指令定位相关目标。2）区域参考落地 (RRG)：该能力通过在合适的自由空间位置生成一个点来放置目标，从而基于关系语言识别空间区域（例如，“杯子和碗之间的空间”）。3）目标功能落地 (OFG)：该能力识别目标功能重要的部分区域（即，affordance）。该点必须位于此功能区域内，例如用于抓握的刀柄。4 视觉轨迹生成 (VTG)：该能力产生一个有序的点序列，τ = {p_t ∣ t = 1, 2, … ，T}，T 表示序列长度，以形成完整的、以物体为中心的操作轨迹。该序列提供了全面的空间规划，使机器人能够遵循指令规定的运动模式，同时避开障碍物。特意用以物体为中心的视觉轨迹，而非以智体为中心的视觉轨迹，以实现与智体无关的视觉表征，确保视觉轨迹与任务指令之间严格对应。上图展示每种具体指向能力的可视化效果。

增强 VLM 的具身推理能力

为了开发通用的具身指向能力，利用三种数据类型训练 Embodied-R1：用于基础-觉察的具身空间推理、用于保留现有技能的通用推理以及用于学习四种关键指向能力的具身指向。如图所示展示训练数据的概览。

请添加图片描述

通用和空间推理数据。该数据集的基础是 Embodied-Spatial-84K，专为具身空间-觉察而设计。这些数据来自两个著名的基准数据集，即 SAT Ray (2024) 和 WhatsUp Kamath (2023)。为了便于客观的绩效评估和可验证的奖励结构，所有源数据都被系统地转换为统一的多项选择题格式。此外，为了在专门训练期间应对灾难性遗忘问题并保持通用推理能力，引入一个补充数据集 ViRL-subset-18K。该数据集包含多样化的通用知识实例。对 ViRL39K Wang (2025a) 数据集进行策略性筛选，移除过难的问题，并平衡不同学科和类型的问题，最终形成包含 18,000 个问答对的数据集。最终的复合数据集提供一个均衡的课程，在培养专业空间技能的同时，保障模型的基础知识。

具身指向数据。为提升具身指向能力，推出 Embodied-Points-200K 数据集，这是一个精心策划的高质量语料库，包含约 20 万个样本。由于具身指向问题固有的多解困境，规避 SFT 中常见的构建“问答”对的需求。相反，将数据构建为“问题-验证”对，并利用 RFT 进行训练。随后，每个任务的预定义奖励函数会根据验证结果评估响应并计算相应的奖励。

• REG 数据：在机器人操作中，精确定位至关重要。然而，传统的边框存在固有的模糊性，无法满足这一要求。构建一个以点为中心的 REG 数据集。其数据来源多样，整合 RefCOCO Kazemzadeh (2014) 的通用网络图像以及多个具体数据集（RoboRefIt Lu (2023)、Yuan (2024b) 和 RoboPoint Yuan (2024b)），以确保广泛的覆盖范围。严格调整该任务的成功标准：模型必须指定单个点，而不是输出边界框。如果该点位于物体的分割掩码内，则预测被认为是正确的。
• RRG 数据：为了使机器人能够理解复杂的空间放置命令，其开发一套自动化数据生成流程，用于创建关系-觉察的放置区域。该流程处理大量开源具身数据集（约100万），经过严格的筛选，最终生成33,000个高质量样本。其核心流程包括：1. 区域提取：从终端帧中提取被操作目标的最终位置；2. 区域参考：计算区域相对于场景中参考目标的精确位置；3. 渲染：将空间位置信息渲染到初始图像上。为了确保数据的多样性和质量，设计一种启发式过滤策略，涵盖丰富的空间关系、目标配置和场景。此外，利用 Isaac Gym 的仿真引擎生成一个3D目标重排的合成数据集，使模型具备3D空间-觉察能力。在这个以RGB-D图像作为输入的任务中，模型需要根据指令将目标放置在正确的相对位置。仿真系统会根据真实的物理状态自动判断并反馈任务是否成功。
• OFG 数据：为了增强 Embodied-R1 对物体功能部件的细粒度理解，构建一个包含 40,000 个功能抓取点的数据集。利用 Guo (2023) 的 HandAL 数据集，该数据集包含 212 个现实世界物体，并对其可操作部件进行了精细注释。将这些部件注释转换为边框，用于 OFG 任务的验证。同时，用 GPT-4o 模型重写与功能相关的问题（例如，“用刀切菜时应该握住哪个部位？”），从而增强了模型泛化物体 affordance 知识的能力。
• VTG 数据：构建一个以物体为中心的视觉轨迹数据集，专门追踪物体的运动。提取流程遵循 Yuan (2025) 的方法，主要包含三个步骤：1）关键目标提议：使用 GPT-4o 识别给定任务的主要关注目标；2）关键点识别：Huang (2024c) 提出的自监督关键点提取器与 Ren (2024) 提出的 Grounded-SAM 算法相结合，用于自动识别目标的抓取点；3）点跟踪与投影：用 Karaev (2024) 提出的 Cotracker3 算法来计算源自关键点的密集时间视觉轨迹。接下来，将轨迹下采样为 8 个等距的离散点，并投影回初始图像，从而创建“图像-视觉轨迹”对。值得注意的是，在此过程中使用多个预训练视觉模型不可避免地会引入噪声。实施严格的基于规则的过滤，并使用手动注释的测试集不断验证方法。基于此反馈，迭代地改进过滤标准，以提高数据集的质量。

训练策略。基于所收集的数据，Embodied-R1 采用两阶段训练流程：第一阶段侧重于增强空间推理能力，因为空间推理是点理解的基础；第二阶段进一步使用以点为中心的多任务混合数据训练具身指向能力。在每个阶段，训练一个策略 π_θ(y∣x)，通过最大化预期奖励最大值 E_x~D E_y~π_θ(.∣x) [r(y, x)] 来生成输出 y。训练使用 GRPO Guo (2025)、Shao (2024) 算法进行。行为策略 π_θ_old 生成 G 个候选响应 {y _i}，通过对奖励进行归一化来计算时间步 t 中第 i 个响应的优势。然后，将一个经过裁剪的替代损失与裁剪函数相结合。

多任务奖励设计

Embodied-R1 通过从共享分布中均匀采样，在每个阶段混合多个任务的训练，这意味着每个训练批次都包含不同的任务。目标是利用混合训练在各种具身指向任务之间共享常识，从而实现指向坐标的更佳对齐，并提高训练效率。然而，由于强化学习中奖励优化的趋势，较简单的任务更有可能获得更高的奖励，从而主导策略训练。为了在多任务混合训练中解决这个问题，设计多个可验证的奖励函数，以支持各种类型的问答和指向标注。每个任务都有一个独特的总奖励函数 R，它由几个权重不同的主要奖励 r 组成。

格式奖励：为了鼓励结构化输出 y，定义统一的格式奖励 r_format(y)。推理过程包含在标签中，答案包含在标签中。对于指向推理任务，进一步要求模型的输出必须遵循 [[x_1,y_1],[x_2,y_2],…] 格式，其中所有预测坐标均位于原始像素图像坐标系中。通过采用统一的点空间，促进不同任务之间的知识共享。如果满足上述所有条件，则输出被标记为标签有效。r_format(y) = I(tags valid(y))。
准确率奖励：对于一般问答任务的多项选择题，采用准确率奖励来评估从响应中提取的答案是否与标准答案 g 匹配。只有当答案一致时，模型才会获得正向激励。r_acc(y, g) = I(y = g)。
掩码点奖励：对于指向任务，掩码点奖励函数 r_mask 由预测输出点 p 是否位于真实答案掩码 M_gt 内决定。奖励函数可以正式表示为 r_mask(p, M_gt) = I(p ∈ M_gt)。
点距离奖励：为了提高学习效率，还设计一个密集的辅助奖励 r_dis，用于引导预测点接近目标区域 M_gt。欧氏距离为 d = || p − g ||_2，其中 g 是 M_gt 的中心。给定像素距离阈值 D_min_thresh 和 D_max_thresh，r_dis 定义为 r_dis(p, M_gt) = min (1.0, max (0.0, 1.0 - (d−D_min_thresh)/(D_max_thresh - D_min_thresh)))，并将该奖励的范围限制为 0-1。
视觉轨迹奖励：为了评估生成的视觉轨迹，奖励来自轨迹相似性指标，该指标通过将预测轨迹 τ 与真实轨迹 τ_gt 进行比较而得出。首先，比较 τ 和 τ_gt 中的点数。使用较长的轨迹作为参考，对两个轨迹进行插值以使其具有相同数量的点，然后继续计算均方根误差 (RMSE)：d_RMSE(τ, τ_gt)。同样，使用 DRMSE_min 和 DRMSE_max 超参来确保奖励保持在 0 和 1 之间。此奖励计算如下：r_trace (τ, τ_gt) = min (1.0, max(1.0, max(0.0, 1.0 - (d_RMSE(τ, τ_gt)-D_RMSE_min)/(D_RMSE_max - D_RMSE_min)))。
环境奖励：环境奖励 r_env 基于模拟环境的反馈，提供任务完成的直接信号。此奖励用于 RRG 任务中来自 Isaac Gym 模拟器的部分训练数据。它在模拟器中解析并执行模型的输出，然后返回指示成功或失败的二进制结果。奖励 r_env 的正式定义为一个指标函数：r_env(y) = I(Simulate(y))。
总奖励：每个任务的总奖励 R 由这些单独的奖励成分组合而成。定义奖励函数库 F = {r_format, r_acc, r_mask, r_dis, r_trace, r_env}。每个成分函数评估模型性能的某个特定方面。由于对多个任务进行混合训练，为了确保每个任务都得到同等且充分的训练，将每个任务的总奖励 R 限制在 0 到 1 的范围内，具体实现如下。R 被表示为加权和的组合。特定任务的权重 w_r 被归一化为总和为 1。这种结构保证总奖励 R 也在 [0, 1] 范围内，并允许根据每个任务的特定需求定制奖励信号。例如，RRG 任务需要同时满足格式要求、确保预测点在指定区域内，并通过采用密集距离奖励来加速训练。此时，R_RRG 定义为 R_RRG = 0.1 r_format + 0.2 r_dis + 0.7 r_mask。这种在不同任务之间保持一致的奖励扩展对于稳定性至关重要。

Embodied-R1 的动作执行器

通过简单的指向，Embodied-R1 可以灵活地与各种下游动作执行器集成。这使得它能够从任何步骤进行推理，自由选择必要的指向能力，并将它们与运动规划器相结合，实现零样本机器人控制。为此提供两种主要的决策方法：affordance 点分支 (-P) 和视觉轨迹分支 (-V)。affordance 点分支：Embodied-R1 能够通过 RRG 和 OFG 等能力预测多个关键的抓取和放置点。然后，利用 CuRobo Sundaralingam (2023) 作为运动规划器。CuRobo 负责生成无碰撞路径，以引导机器人的末端执行器到达推断出的目标可供性点。视觉轨迹分支：利用 VTG 中以目标为中心的视觉轨迹，首先使用针孔相机模型和初始深度信息将二维视觉轨迹 τ 映射到三维笛卡尔坐标系。对这些离散点进行插值，在 SE(3) 空间中形成完整的运动轨迹。然后，机器人像 FSD Yuan (2025) 中提到的那样，跟随视觉轨迹执行动作。

实验细节

空间推理能力

设置：为了验证第一阶段的效果，首先评估 Embodied-R1 的空间感知和理解能力。选择五个广泛采用的空间推理基准：CVBench Tong (2024)、BLINK Fu (2024)、CRPE Wang (2025b)、SAT Ray (2024) 和 EmbSpatial-Bench Du (2024)，它们总共包含 15 个子任务，用于评估不同的空间能力。纳入两个领先的闭源模型：GPT-4o Hurst (2024) 和 GPT-4V。还比较开源的空间增强模型，例如 SAT-Dynamic Ray (2024)、RoboPoint Yuan (2024b)、ASMv2 Wang (2025b)、RoboBrain Ji (2025) 和 FSD Yuan (2025)。值得注意的是，RoboBrain 和 FSD 都增强推理能力，并最终将其应用于具身任务。还特别比较 Embodied-R1 w/o CS 模型，该模型不包含常识（CS）知识，即训练数据集不包含 ViRL。

指向能力

设置：针对 Embodied-R1 的具身点推理和生成能力，对已定义的能力进行全面评估。1）对于参考表达落地 (REG) 能力，选择 RoboRefIt Lu (2023) 的测试数据集。与 Ref-Coco Kazemzadeh (2014) 等以人为中心的数据集不同，RoboRefIt 的特征是图像中包含外观相似的物体，这些物体主要通过关系参考来区分，这为具身感知提出一个更具挑战性的场景。2）使用 Where2Place Yuan (2024b) 和 VABench-Point Yuan (2025) 基准来评估区域参照接地 (RRG) 容量。VABench-Point (VABench-P) 基准包括更复杂的任务描述，更贴近现实生活场景，需要进一步推理。3）对于物体 affordance 接地 (OFG) 容量，通过从 RGBD-Part-Affordance Myers (2015) 数据集中筛选出 2000 个与抓握相关的 affordance，构建一个名为 Part-Afford Benchmark 的基准。该基准测试涵盖 105 种厨房、车间和园艺工具，旨在评估 OOD 场景中 affordance 预测的泛化能力。4）对于视觉轨迹生成 (VTG) 能力，遵循 VABench-VisualTrace (VABench-V) Yuan (2025) 评估方法，测量 MAE、RMSE 和 LLM 分数。5）此外，在 YCB Xiang (2017) 和 ObjaverseXL Deitke(2023) 的合成目标数据集上对 Embodied-R1 进行微调，该数据集包含 RGB 和深度图像。该模型名为 Embodied-R1-RGBD，其中 RGB 和深度图像分别作为输入以预测目标区域的位置和物体的深度。为了进行比较，仅将 RGB 图像作为输入的模型称为 Embodied-R1-RGB。此 3D 能力在 Open6DOR-Position 基准测试 Qi （2025）上进行了测试，并与其他基于 VLM 的方法进行比较。

Embodied-R1 在机器人操作中的应用

SimplerEnv 仿真。利用 Embodied-R1，结合 CuRobo Sundaralingam（2023）的规划器生成物体 affordance 点和目标区域点，然后在 WidowX 机械臂上进行零样本部署。将其性能与三种类型的 VLA 进行比较。对于端到端 VLA，选择 Octo Team（2024）、OpenVLA Kim（2024）、RoboVLM Li（2024c）和 SpatialVLA Qu（2025）。对于模块化 VLA，选择 SoFar Qi（2025）和 MOKA Liu（2024a）。SoFar 流程集成 Florence-2 Xiao（2024）、SAM Kirillov（2023）和 GPT-4o 完成任务。MOKA 利用多个模型获取任务执行的关键点。还比较 RoboPoint Yuan（2024b）和 FSD Yuan（2025）作为 affordance VLA 基线。

真实世界机器人评估。用 xArm 6 机器人在八个桌面操作任务中对不同方法进行了零样本真实世界评估。实验设置使用位于第三人称视角的英特尔 RealSense L515 LiDAR 摄像头，图像分辨率为 640×480。实验目标、场景和任务从未在训练数据中出现过，直接用于测试 OOD 泛化的性能。

还选择“将最近的物体移到抽屉右侧”的任务，通过引入背景、光照和高度变化等视觉干扰，来测试模型在零样本设置下的鲁棒性。