机器人

R²D²:利用 NVIDIA 研究工作流和全局基础模型训练通用机器人

机器人领域的一项主要挑战是训练机器人执行新任务,而无需为每个新任务和环境收集和标记数据集。NVIDIA 近期的研究工作旨在通过使用生成式 AI、NVIDIA Cosmos 等世界基础模型 ( WFM) 以及 NVIDIA Isaac GR00T-Mimic 和 GR00T-Dreams 等数据生成蓝图来解决这一挑战。

本期 NVIDIA 机器人研发摘要 (R2D2)NVIDIA 机器人研发摘要 (R2D2)NVIDIA 机器人研发摘要 (R2D2)NVIDIA 机器人研发摘要 (R2D2)NVIDIA 机器人研发摘要 (R2D2) 介绍了研究如何使用世界基础模型实现可扩展的合成数据生成和机器人模型训练工作流,例如:

世界机器人基础模型

Cosmos 世界基础模型 (WFM) 基于数百万小时的真实世界数据进行训练,以预测未来世界状态,并根据单个输入图像生成视频序列,使机器人和自动驾驶汽车能够预测即将发生的事件。这种预测能力对于合成数据生成流程至关重要,有助于快速创建多样化的高保真训练数据。这种方法显著加速了机器人学习,增强了模型的鲁棒性,并将开发时间从几个月的手动工作缩短到仅仅几个小时。

DreamGen

DreamGen 是一种合成数据生成工作流,可解决为机器人学习收集大规模人类远程操作数据所需的高昂成本和高昂人工问题。它是 NVIDIA Isaac GR00T-Dreams 的基础,它是使用世界基础模型生成大量合成机器人轨迹数据的蓝图。

传统的机器人基础模型需要针对每个新任务和环境进行大量的手动演示,而这些演示不可扩展。基于仿真的替代方案通常存在仿真与现实之间的差距,需要大量的人工设计。

DreamGen 使用世界基础模型创建逼真的多样化训练数据,尽可能减少人工输入,从而克服这些挑战。这种方法支持可扩展的机器人学习,以及跨行为、环境和机器人具身的强大泛化。

Image showing visuomotor robot policies generalizing to new environments with new behaviors.
图 1。通过 DreamGen 实现泛化

DreamGen 工作流包含四个关键步骤:

  1. 后训练世界基础模型:使用少量真实演示,将 Cosmos-Predict2 等世界基础模型适应目标机器人。Cosmos-Predict2 通过文本 (文本转图像) 和图像或视频 (视频转世界) 的视觉模拟生成高质量图像。
  2. 生成合成视频:使用经过后训练的模型,根据图像和语言提示,为新任务和新环境创建多样化、逼真的机器人视频。
  3. 提取伪动作:应用潜在动作模型或反向动力学模型 (IDM) ,将这些视频转换为有标记的动作序列 (神经轨迹) 。
  4. 训练机器人策略:使用生成的合成轨迹来训练视觉运动策略,使机器人能够执行新的行为并泛化到不可见的场景。
High-level diagram showing the four main steps in the DreamGen pipeline.
图 2。DreamGen 工作流概述

DreamGen Bench

DreamGen Bench 是一项专门的基准测试,旨在评估视频生成模型如何有效地适应特定的机器人具身,同时内部化刚体物理特性并泛化到新的对象、行为和环境。它测试了四个领先的基础模型 – NVIDIA Cosmos、WAN 2.1、Hunyuan 和 CogVideoX – 测量两个关键指标:

  • 说明如下:评估生成的视频是否准确反映了使用 Qwen-VL-2.5 等 VLM 和人工注释器进行评估的任务说明 (例如,“捡起洋葱”) 。
  • 物理效果遵循:使用 VideoCon-Physics 和 Qwen-VL-2.5 等工具量化物理真实感,以确保视频遵守真实世界的物理效果。

如图 3 所示,我们观察到,当机器人在实际操作任务中接受训练和测试时,模型在 DreamGen Bench 上的得分更高 (这意味着它们生成的合成数据更真实、更符合指令) ,从而始终如一地提高性能。这种积极的关系表明,投资于更强大的世界基础模型不仅可以提高合成训练数据的质量,而且在实践中可以直接转化为更具能力和适应性的机器人。

A scatter plot showing the positive correlation between DreamGen Bench Score and RoboCasa Score for four video world models.
图 3。DreamGen Bench 和 RoboCasa 之间的正性能相关性

NVIDIA Isaac GR00T-Dreams

Isaac GR00T-Dreams 基于 DreamGen 的研究,是一个为机器人动作生成合成轨迹数据的大型数据集的工作流。与收集真实世界的动作数据相比,这些数据集可用于训练物理机器人,同时节省大量时间和人工工作量。

GR00T-Dreams 使用 Cosmos Predict2 WFMCosmos Reason 为不同的任务和环境生成数据。Cosmos 推理模型包括多模态 LLM (大语言模型) ,可针对用户提示生成基于物理性质的响应。

用于训练通用机器人的模型和工作流程

可以使用从 WFM 生成的数据对视觉语言动作 (VLA) 模型进行后训练,以便在不可见的环境中实现新的行为和操作。

NVIDIA Research 使用 GR00T-Dreams 蓝图生成合成训练数据,在短短 36 小时内开发出 GR00T N1.5 的更新版 GR00T N1。如果使用人工收集人类数据,这一过程需要近三个月的时间。

GR00T N1 是全球首个通用人形机器人开放基础模型,标志着机器人和 AI 领域的重大突破。GR00T N1 基于受人类认知启发而构建的双系统架构,统一了视觉、语言和动作,使机器人能够理解指令、感知环境,并执行复杂的多步骤任务。

GR00T N1 基于 LAPA 等技术构建,可从无标记的人类视频和仿真与现实协同训练等方法中学习,后者融合了合成数据和现实世界数据,实现了更强的泛化。我们稍后将在此博客中了解 LAPA 以及仿真与现实的协同训练。通过结合这些创新,GR00T N1 不仅遵循指令并执行任务,还为通用人形机器人在复杂、不断变化的环境中的表现树立了新的基准。

GR00T N1.5 是面向通用人形机器人的升级版开放基础模型,基于原始的 GR00T N1 构建,具有经过改进的视觉语言模型,该模型基于各种真实、模拟和 DreamGen 生成的合成数据进行训练。

随着架构和数据质量的改进,GR00T N1.5 可提供更高的成功率、更好的语言理解能力以及对新对象和任务的更强泛化,使其成为更稳健、适应性更强的高级机器人操作解决方案。

视频中的潜在动作预训练

针对通用动作模型 (LAPA) 的潜在动作预训练是一种用于预训练视觉语言动作 (VLA) 模型的无监督式方法,无需手动标记昂贵的机器人动作数据。LAPA 使用超过 181000 个未标记的互联网视频来学习有效的表征,而不是依赖于大型的带标注的数据集 (收集这些数据集既昂贵又耗时) 。

在处理现实世界任务时,此方法的性能比高级模型提高了 6.22%,预训练效率提高了 30 倍以上,使可扩展且可靠的机器人学习更容易获取且更高效。

LAPA 流程分为三个阶段:

  • 潜在动作量化:向量量化变分自动编码器 (VQ-VAE) 模型通过分析视频帧之间的过渡来学习离散的“潜在动作”,创建原子行为 (例如抓取、倾倒) 词汇表。潜在动作是低维的习得表示,可总结复杂的机器人行为或动作,从而更容易控制或模仿高维动作。
  • 潜在预训练:VLM 使用行为克隆进行预训练,根据视频观察和语言指令从第一阶段预测这些潜在动作。行为克隆是一种模型使用演示数据中的示例,通过将观察结果映射到动作来学习复制或模仿动作的方法。
  • 机器人后训练:然后对预训练模型进行后训练,以使用小型标记数据集适应真实机器人,将潜在动作映射到物理命令。
Diagram showing the latent action pretraining process: input images are encoded and quantized into latent actions, paired with instructions, processed by a vision-language model, and fine-tuned to generate robot-specific actions.
图 4。潜在动作预训练概述

仿真与现实协同训练工作流

机器人策略训练面临两大关键挑战:收集真实世界数据的高昂成本和“现实差距”,即仅在仿真中训练的策略通常无法在真实物理环境中表现良好。

仿真与现实协同训练工作流通过将少量真实机器人演示与大量仿真数据相结合来解决这些问题。这种方法有助于训练可靠的策略,同时有效降低成本并弥合现实差距。

Diagram showing the Sim and Real Co-Training workflow: task setup collects real and simulated data, data preparation gathers and augments both real and digital demonstrations, and co-training combines real and simulated data to train and deploy a robotic policy.
图 5。不同阶段概述

工作流程中的关键步骤包括:

  • 任务和场景设置:设置真实世界的任务,并选择与任务无关的之前模拟数据集。
  • 数据准备:在此数据准备阶段,从物理机器人中收集真实世界的演示,同时生成额外的模拟演示,包括与真实任务紧密匹配的任务感知型“数字表亲”,以及与任务无关的多样化先前模拟。
  • 协同训练参数调优:然后,这些不同的数据源以优化的协同训练比进行混合,重点是调整摄像头视角,并更大限度地提高仿真多样性,而非逼真度。最后阶段涉及使用真实数据和模拟数据进行批量采样和策略协同训练,从而生成部署在机器人上的稳健策略。
Diagram showing examples of robot tasks in both simulation and the real world: rows display real-world, digital, and simulated environments, while columns show different tasks like moving objects, pouring, and manipulating items on a tabletop.
图 6。仿真和现实世界任务的可视化

如图 7 所示,增加真实世界演示的数量可提高仅真实策略和协同训练策略的成功率。即使在 400 次真实演示中,协同训练策略的表现也始终优于仅真实策略,平均高出 38%,这表明即使在数据丰富的环境中,仿真和现实的协同训练也仍然有益。

Graph showing performance of the co-trained policy and policy trained on real data only. The cotrained policy achieves 89% success rate on 400 demos and the real-only policy achieves 39% on the same.
图 7。图显示仅使用真实数据训练的协同训练策略和策略的性能

采用生态系统

领先的组织正在采用 NVIDIA 研究的这些工作流程来加速开发。GR00T N 模型的早期采用者包括:

  • AeiRobot:利用这些模型使其工业机器人能够理解复杂拾放任务的自然语言。
  • Foxlink:利用这些模型提高其工业机器人手臂的灵活性和效率。
  • Lightwheel:验证合成数据,以便使用模型在工厂中更快地部署人形机器人。
  • NEURA 机器人:评估模型以加速其家庭自动化系统的开发。

入门指南

探索以下资源以深入了解:

本文是我们 NVIDIA 机器人研发摘要 (R2D2) 的一部分,旨在让开发者更深入地了解 NVIDIA Research 在物理 AI 和机器人应用方面的新突破。

通过订阅时事通讯以及在 YouTube、Discord 和开发者论坛上关注 NVIDIA Robotics,了解有关 NVIDIA 研究的更多信息,并随时了解最新动态。要开启您的机器人开发之旅,请立即注册我们的免费 NVIDIA 机器人开发基础课程

致谢

感谢 Johan Bjorck、Lawrence Yunliang Chen、Nikita Chernyadev、Yu-Wei Chao、Bill Yuchen Lin、Linxi’Jim’Fan、Dieter Fox、Yu Fang、Jianfeng Gao、Ken Goldberg、Fengyuan Hu、Wenqi Huang、Spencer Huang、Zhenyu Jiang、Byeongguk Jeon、Sejune Joo、Jan Kautz、Joel Jang、Kaushil Kundalia、Kimin Lee、Lars Liden、Zongyu Lin、M

 

 

标签