自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1176)
  • 收藏
  • 关注

原创 GWM:面向机器人操作的可扩展高斯世界模型

25年8月来自清华、BIGAI 和南洋理工的论文"GWM: Towards Scalable Gaussian World Models for Robotic Manipulation"。由于现实世界交互效率低下,在已学习的世界模型中训练机器人策略正成为一种趋势。现有的基于图像世界模型和策略已取得一定成效,但缺乏鲁棒的几何信息,即使基于互联网规模的视频源进行预训练,也需要对三维世界有一致的空间和物理理解。为此,本文提出一种用于机器人操作的世界模型分支——高斯世界模型 (GWM),它通过推断机器人动作影

2025-09-02 00:15:00 1386

原创 FastDriveVLA:通过即插即用基于重建的 token 修剪实现高效的端到端驾驶

25年8月来自北大和小鹏汽车的论文“FastDriveVLA: Efficient End-to-End Driving via Plug-and-Play Reconstruction-based Token Pruning”。视觉-语言-动作 (VLA) 模型在复杂场景理解和动作推理方面表现出巨大潜力,因此在端到端自动驾驶系统中的应用日益广泛。然而,VLA 模型的视觉 tokens 过长,大大增加了计算成本。当前,视觉-语言模型 (VLM) 中的视觉 token 修剪方法依赖于视觉 token 相似

2025-09-02 00:15:00 680

原创 TGRPO:通过轨迹 GRPO 微调 VLA 模型

25年6月来自吉林大学的论文“TGRPO: Fine-tuning Vision-Language-Action Model via Trajectory-wise Group Relative Policy Optimization“。视觉-语言-动作 (VLA) 模型的最新进展已在大规模数据集上进行预训练,展现出跨多种场景、任务和机器人平台的强大泛化能力。然而,这些模型在新环境中仍然需要针对特定​​任务进行微调,而这一过程几乎完全依赖于使用静态轨迹数据集的监督微调 (SFT)。此类方法既不允许机器人

2025-09-01 06:55:15 524

原创 CAST:反事实标签改善视觉-语言-动作模型中的指令遵循

25年8月来自伯克利分校和普林斯顿大学的论文“CAST: Counterfactual Labels Improve Instruction Following in Vision-Language-Action Models”。通才机器人应该能够理解并遵循用户指令,但当前的视觉-语言-动作 (VLA) 模型尽管提供了强大的架构,可以将开放词汇的自然语言指令映射到机器人动作,但仍难以遵循细粒度的命令。造成这种情况的原因之一是现有机器人数据集缺乏语义多样性和语言基础,具体而言,是缺乏针对类似观察的细粒度任

2025-09-01 06:55:05 486

原创 具有类人先验知识的 Affordance-觉察机器人灵巧抓取

25年8月来自武汉大学、阿里达摩院、湖畔研究中心、浙大和清华的论文“Towards Affordance-Aware Robotic Dexterous Grasping with Human-like Priors”。能够泛化抓取目标的灵巧手是开发通用具身人工智能的基础。然而,之前的方法仅仅关注低级抓取稳定性指标,而忽略了affordance-觉察的定位和拟人姿态,而这些对于下游操作至关重要。为了突破这些限制,AffordDex,一个采用两阶段训练的框架,可以学习通用的抓取策略,并固有地理解运动先验和

2025-08-30 18:03:04 970

原创 MolmoAct:可进行空间推理的动作推理模型

25年8月来自西雅图的AI2和华盛顿大学的论文“MolmoAct: Action Reasoning Models that can Reason in Space”。推理是有目的行动的核心,但大多数机器人基础模型将感知和指令直接映射到控制,这限制了其适应性、泛化能力和语义基础。本文采取动作推理模型 (ARM),这是一类通过结构化的三阶段流水线来集成感知、规划和控制的机器人基础模型。模型 MolmoAct 将观察结果和指令编码为深度感知 token,生成中级空间规划作为可编辑的轨迹,并预测精确的低级动作

2025-08-30 00:15:00 932

原创 视觉-语言-动作模型的交互式后训练范式 RIPT-VLA

25年5月来自 UT Austin 和南开大学的论文“Interactive Post-Training for Vision-Language-Action Models”。RIPT-VLA,这是一种简单且可扩展的基于强化学习的交互式后训练范式,它仅使用稀疏的二元成功奖励来微调预训练的视觉-语言-动作 (VLA) 模型。现有的 VLA 训练流程严重依赖离线专家演示数据和监督模仿,限制了它们在低数据环境下适应新任务和新环境的能力。RIPT-VLA 解决了这个问题,它使用基于动态展开采样和 leave-o

2025-08-28 00:15:00 932

原创 ConRFT:一种基于一致性策略的 VLA 模型强化微调方法

25年2月来自中科院自动化所和中科院大学 AI 学院的论文“ConRFT: A Reinforced Fine-tuning Method for VLA Models via Consistency Policy”。视觉-语言-动作 (VLA) 模型在现实世界的机器人操作中已展现出巨大潜力。然而,由于演示有限且不一致,尤其是在接触丰富的环境中,通过监督学习对这些模型进行微调难以实现稳健的性能。本文提出一种针对 VLA 模型的强化微调方法 ConRFT,该方法由离线和在线微调组成,并具有统一的基于一致性

2025-08-28 00:15:00 845

原创 H2R:一种用于机器人视频预训练的人机数据增强方法

25年5月来自北大和西雅图华盛顿大学的论文“H2R: A Human-to-Robot Data Augmentation for Robot Pre-training from Videos”。使用视频进行大规模预训练已被证明对机器人学习有效。然而,由于人手与不同机器人手之间存在显著的视觉差距,基于此类数据预训练的模型对于机器人学习来说可能不是最优的。为了解决这个问题, H2R,一种简单的数据增强技术,它可以检测人手关键点,在模拟中合成机器人动作,并将渲染的机器人合成到以自我为中心的视频中。这个过程在

2025-08-27 00:15:00 777

原创 H-RDT:人类操作增强双手机器人操作

25年8月来自清华大学和地平线机器人公司的论文“H-RDT: Human Manipulation Enhanced Bimanual Robotic Manipulation”。机器人操作的模仿学习面临着一个根本性的挑战:大规模、高质量的机器人演示数据的稀缺。最近的机器人基础模型通常在跨机器人具身的数据集上进行预训练,以增加数据规模,但它们面临着巨大的局限性,因为不同机器人实例的形态和动作空间各不相同,使得统一训练具有挑战性。本文 H-RDT(人-2-机器人扩散 transformer),这是一种利用

2025-08-27 00:15:00 1029

原创 面向具身人工智能的多模态数据存储与检索:综述(上)

这篇论文系统综述了具身人工智能(EAI)中的多模态数据存储与检索技术。文章首先分析了EAI产生的海量异构数据流对传统管理系统带来的挑战,重点评估了五种存储架构(图数据库、多模型数据库等)和五种检索范式(基于融合、表示对齐、图结构等)在满足物理基础、低延迟和可扩展性等核心需求方面的表现。通过全面回顾180多项研究,作者揭示了长期语义一致性与实时响应能力之间的根本矛盾,并指出了从物理接地到跨模态集成等系统性挑战。最后提出前瞻性研究议程,包括物理感知数据模型、自适应优化和标准化基准,为下一代自主具身系统的数据管理

2025-08-26 00:15:00 1185

原创 面向具身人工智能的多模态数据存储与检索:综述(下)

25年8月来自华南师范大学和北大的论文“Multimodal Data Storage and Retrieval for Embodied AI: A Survey”。具身人工智能 (EAI) 智体持续与物理世界交互,生成海量异构多模态数据流,而传统的管理系统难以应对这些数据流。本综述首先系统地评估五种存储架构(图数据库、多模型数据库、数据湖、矢量数据库和时间序列数据库),重点关注它们是否能够满足 EAI 的核心需求,包括物理基础、低延迟访问和动态可扩展性。然后,分析五种检索范式(基于融合策略的检索、

2025-08-26 00:15:00 757

原创 大模型赋能的具身人工智能:决策与具身学习综述 (上)

25年8月来自中科大的论文“Large Model Empowered Embodied AI: A Survey on Decision-Making and Embodied Learning”。具身人工智能旨在开发具有物理形态的智能系统,使其能够在现实环境中感知、决策、行动和学习,为通用人工智能(AGI)的发展提供一条充满希望的途径。尽管经过数十年的探索,具身智体在开放动态环境中实现人类级别的通用任务智能仍然充满挑战。大模型的最新突破通过增强感知、交互、规划和学习能力,彻底改变了具身人工智能。本文

2025-08-25 00:15:00 1395

原创 大模型赋能的具身人工智能:决策与具身学习综述 (中)

25年8月来自中科大的论文“Large Model Empowered Embodied AI: A Survey on Decision-Making and Embodied Learning”。具身人工智能旨在开发具有物理形态的智能系统,使其能够在现实环境中感知、决策、行动和学习,为通用人工智能(AGI)的发展提供一条充满希望的途径。尽管经过数十年的探索,具身智体在开放动态环境中实现人类级别的通用任务智能仍然充满挑战。大模型的最新突破通过增强感知、交互、规划和学习能力,彻底改变了具身人工智能。本文

2025-08-25 00:15:00 835

原创 大模型赋能的具身人工智能:决策与具身学习综述 (下)

25年8月来自中科大的论文“Large Model Empowered Embodied AI: A Survey on Decision-Making and Embodied Learning”。具身人工智能旨在开发具有物理形态的智能系统,使其能够在现实环境中感知、决策、行动和学习,为通用人工智能(AGI)的发展提供一条充满希望的途径。尽管经过数十年的探索,具身智体在开放动态环境中实现人类级别的通用任务智能仍然充满挑战。大模型的最新突破通过增强感知、交互、规划和学习能力,彻底改变了具身人工智能。本文

2025-08-25 00:15:00 1261

原创 BEAVR:双手、多具身、可访问、VR 的机器人远程操作系统

25年8月来自 MIT 的论文“BEAVR: Bimanual, multi-Embodiment, Accessible, Virtual Reality Teleoperation System for Robots”。BEAVR 是一个开源的、双手操控、多具身虚拟现实 (VR) 机器人遥操作系统,旨在统一跨异构机器人平台的实时控制、数据记录和策略学习。BEAVR 使用商用 VR 硬件实现实时灵巧的遥操作,支持与从 7 自由度机械臂到全身人形机器人的模块化集成,并直接在 LeRobot 数据集中记录

2025-08-24 00:15:00 2013

原创 Embodied-R1:通用机器人操作的强化具身推理

25年8月来自天津大学的论文“Embodied-R1: Reinforced Embodied Reasoning for General Robotic Manipulation”。由于数据稀缺和体现异质性,体现人工智能的泛化受到“看与做”差距的阻碍。为了解决这个问题,本文将“指向(pointing)”作为一种统一的、与具身无关的中间表示,定义四种核心具身指向能力,将高级视觉语言理解与低级动作原语联系起来。其推出 Embodied-R1,一个专为具身推理和指向而设计的 3B 视觉-语言模型 (VLM)

2025-08-24 00:15:00 1066

原创 ODYSSEY:开放世界四足机器人的探索与操控,助力长范围任务

25年8月来自浙江大学、浙江工业大学和香港中文大学(深圳)的论文“ODYSSEY: Open-World Quadrupeds Exploration and Manipulation for Long-Horizon Tasks”。语言引导的长范围机器人移动操作,长期以来一直是具身语义推理、泛化操作和自适应运动领域的一大挑战。三个基本限制阻碍了进展:首先,尽管大语言模型已显示出通过学习语义先验来增强空间推理和任务规划的潜力,但现有的实现仍然局限于桌面场景,未能解决移动平台感知受限和驱动范围有限的特点。

2025-08-23 00:05:54 1448

原创 DEEPFLEET:移动机器人的多智体基础模型

25年8月来自亚马逊机器人团队的论文“DEEPFLEET: Multi-Agent Foundation Models for Mobile Robots”。DEEPFLEET,是一套旨在支持大规模移动机器人队列协调和规划的基础模型。这些模型基于来自亚马逊全球仓库数十万台机器人的队列移动数据(包括机器人位置、目标和交互)进行训练。DEEPFLEET 由四种架构组成,每种架构都体现独特的归纳偏差,并共同探索多智体基础模型设计空间中的关键点:以机器人为中心 (RC) 模型是一个在单个机器人邻域上运行的自回归

2025-08-23 00:05:37 1310

原创 LMAD:用于可解释自动驾驶的集成端到端视觉-语言模型

25年8月来自复旦大学、悉尼大学和伦敦帝国理工学院 ICL 的论文“LMAD: Integrated End-to-End Vision-Language Model for Explainable Autonomous Driving”。大型视觉-语言模型 (VLM) 在场景理解方面表现出色,可增强驾驶行为的可解释性和与用户的交互性。现有方法主要根据车载多视图图像和场景推理文本对 VLM 进行微调,但这种方法往往缺乏自动驾驶所需的整体细致的场景识别和强大的空间感知,尤其是在复杂情况下。为了弥补这一差距

2025-08-21 10:51:20 991

原创 规划中感知:端到端自动驾驶的耦合感知与规划

25年8月来自复旦大学和上海创新研究院的论文“Perception in Plan: Coupled Perception and Planning for End-to-End Autonomous Driving”。近年来,端到端自动驾驶取得了显著进展。现有方法主要遵循感知-规划范式,其中感知和规划在完全可微分的框架内按顺序执行,以实现面向规划的优化。本文通过“感知-规划”框架设计进一步推进了这一范式,将感知融入规划过程。该设计有助于在规划目标不断演变的指导下进行有针对性的感知,最终提升规划性能。基于

2025-08-21 00:15:00 912

原创 基于VLM 的机器人操作视觉-语言-动作模型:综述 2

25年8月来自的论文“Large VLM-based Vision-Language-Action Models for Robotic Manipulation: A Survey”。机器人操控是机器人技术和具身人工智能的关键前沿,需要精确的运动控制以及对动态环境中视觉和语义线索的综合理解。传统方法基于预定义的任务规范和严格的控制策略,往往难以在非结构化的新场景中扩展或推广。近年来,基于在海量图像文本数据集上预训练的大型视觉-语言模型 (VLM) 构建的视觉-语言-动作 (VLA) 模型已成为一种变革

2025-08-20 00:01:15 1115 1

原创 基于VLM 的机器人操作视觉-语言-动作模型:综述 1

25年8月来自的论文“Large VLM-based Vision-Language-Action Models for Robotic Manipulation: A Survey”。机器人操控是机器人技术和具身人工智能的关键前沿,需要精确的运动控制以及对动态环境中视觉和语义线索的综合理解。传统方法基于预定义的任务规范和严格的控制策略,往往难以在非结构化的新场景中扩展或推广。近年来,基于在海量图像文本数据集上预训练的大型视觉-语言模型 (VLM) 构建的视觉-语言-动作 (VLA) 模型已成为一种变革

2025-08-20 00:01:05 907

原创 在相机空间中落地动作:以观察为中心的视觉-语言-行动策略

25年8月来自浙大、上海AI实验室、商汤、南京大学和清华的论文“Grounding Actions in Camera Space: Observation-Centric Vision-Language-Action Policy”。由于观察空间和动作空间之间存在固有差异,视觉-语言-动作 (VLA) 模型在泛化到现实世界环境时经常遇到挑战。尽管训练数据是从不同的摄像机视角收集的,但这些模型通常会在机器人基坐标系内预测末端执行器的姿态,从而导致空间不一致。为了弥补这一局限性,本文引入以观察为中心的 V

2025-08-19 11:22:56 1092

原创 Robo-DM:大型机器人数据集的数据管理

25年5月来自伯克利分校和谷歌的论文“Robo-DM: Data Management For Large Robot Datasets”。大量的遥控机器人演示数据集可用于训练基于 Transformer 的模型,这些模型有可能泛化到新的场景、机器人和任务。然而,整理、分发和加载大型机器人轨迹数据集(通常包含视频、文本和数值等模态,包括来自多个摄像头的数据流)仍然具有挑战性。Robo-DM,是一款开源云端数据管理工具包,用于收集、共享和学习机器人数据。使用 Robo-DM,机器人数据集以可扩展二进制元语

2025-08-19 09:31:43 1164

原创 迈向具身智体人工智能:LLM 和 VLM 驱动的机器人自主性和交互性

25年8月来自芬兰 Turku 大学、瑞士应用科学大学和 skya.ai 公司的论文“Towards Embodied Agentic AI: Review and Classification of LLM- and VLM-Driven Robot Autonomy and Interaction”。基础模型,包括大语言模型 (LLM) 和视觉-语言模型 (VLM),最近为机器人自主和人机界面带来了新方法。与此同时,视觉-语言-动作模型 (VLA) 或大型行为模型 (BLM) 正在提高机器人系统的灵

2025-08-12 09:05:32 930

原创 学习观察和行动:机器人操作中任务-觉察的视图规划

25年8月来自中山大学、鹏程实验室、新加坡 NUS 和中科院深圳技术院的论文“Learning to See and Act: Task-Aware View Planning for Robotic Manipulation”。近期用于多任务机器人操作的视觉-语言-动作 (VLA) 模型通常依赖于静态视点和共享视觉编码器,这限制了 3D 感知并导致任务干扰,从而阻碍了鲁棒性和泛化。这项工作提出任务-觉察视图规划 (TAVP),这是一个旨在通过将主动视图规划与特定任务的表示学习相结合来克服这些挑战的框架

2025-08-11 23:44:53 943 2

原创 可泛化双手操作机器人基准测试:CVPR 2025 MEIS 研讨会 RoboTwin 双臂协作挑战赛

25年7月来自香港大学、上海交大、地平线机器人和浙江舜宇光学合资公司(D-Robotics)、松灵机器人(AgileX Robotics)、华为、上海AI实验室、深圳大学、清华、南京大学、VIVO 和京东等单位的论文“Benchmarking Generalizable Bimanual Manipulation: RoboTwin Dual-Arm Collaboration Challenge at CVPR 2025 MEIS Workshop”。具身人工智能 (Embodied AI) 是机器人

2025-08-09 21:06:36 1198

原创 TWIST:遥控全身模仿系统

25年5月来自斯坦福和 Simon Fraser 大学的论文“TWIST: Teleoperated Whole-Body Imitation System”。全身遥控人形机器人,标志着朝着开发通用机器人智能迈出了根本性的一步,其中人类运动为控制所有自由度提供了理想的界面。然而,目前大多数人形机器人遥控系统无法实现协调的全身行为,通常局限于孤立的运动或操作任务。本文提出遥控全身模仿系统 (TWIST),这是一个通过全身运动模仿进行人形机器人遥控的系统。

2025-08-08 02:55:37 466

原创 AMO:超灵巧人形机器人全身控制的自适应运动优化

25年5月来自UCSD的论文“AMO: Adaptive Motion Optimization for Hyper-Dexterous Humanoid Whole-Body Control”。人形机器人的灵活性很大程度上源于其超灵巧的全身运动,从而能够完成需要较大操作空间的任务,例如从地面拾取物体。然而,由于人形机器人的高自由度 (DoF) 和非线性动力学,在真实人形机器人上实现这些能力仍然具有挑战性。本文提出了自适应运动优化 (AMO) 框架,该框架将模拟-到-真实的强化学习 (RL) 与轨迹优化

2025-08-07 12:15:00 1114

原创 端到端驾驶中三平面实现高效的多摄像头token化

25年6月来自Nvidia和斯坦福的论文“Efficient Multi-Camera Tokenization with Triplanes for End-to-End Driving”。自回归 Transformer 因其可扩展性以及利用互联网规模预训练进行泛化的潜力,正日益被部署为端到端机器人和自动驾驶汽车 (AV) 策略架构。因此,高效地对传感器数据进行token化对于确保此类架构在嵌入式硬件上的实时可行性至关重要。为此,本文提出一种高效的基于三平面的多摄像头token化策略,该策略利用 3D

2025-08-05 06:45:46 881

原创 Drive-R1:自动驾驶中通过强化学习连接VLM 中的推理和规划

25年6月来自中科大和华为诺亚实验室的论文“Drive-R1: Bridging Reasoning and Planning in VLMs for Autonomous Driving with Reinforcement Learning”。用于自动驾驶 (AD) 的大型视觉-语言模型 (VLM) 正在从感知和认知任务向运动规划发展。然而,这个方向面临两个关键挑战:(1)VLM 倾向于通过严重依赖历史输入信息来学习捷径,在没有真正理解视觉输入的情况下实现看似强大的规划结果;(2)思维链 (COT)

2025-08-05 01:48:19 1273

原创 DyWA:用于可推广的非抓握操作的动态自适应世界动作模型

27年7月来自北大和 Galbot 的论文“DyWA: Dynamics-adaptive World Action Model for Generalizable Non-prehensile Manipulation”。非抓握操作对于处理非结构化环境中过薄、过大或无法抓取的物体至关重要。传统的基于规划方法难以处理复杂的接触建模,而基于学习的方法最近成为一种有前途的替代方案。然而,现有的基于学习方法面临两个主要限制:它们严重依赖多视角摄像机和精确的姿态跟踪,并且无法跨不同的物理条件(例如物体质量和桌面

2025-08-03 00:01:30 1200 1

原创 World4Drive:端到端自动驾驶中意图-觉察物理潜世界模型

25年7月来自中科院自动化所、理想汽车、鹏程实验室、新加坡国立大学和清华大学的论文“World4Drive: End-to-End Autonomous Driving via Intention-aware Physical Latent World Model”。端到端自动驾驶直接从原始传感器数据生成规划轨迹,但它通常依赖于昂贵的感知监督来提取场景信息。一个关键的研究挑战是:构建一个信息丰富的驾驶世界模型,以便通过自监督学习实现无感知注释的端到端规划。本文提出 World4Drive,这是一个端到端自

2025-08-03 00:01:15 1033

原创 探索贝叶斯推理与具身智能之间的联系:迈向开放的物理世界具身人工智能系统

25年7月来自中国电信天翼数字生活科技有限公司的论文“Exploring the Link Between Bayesian Inference and Embodied Intelligence: Toward Open Physical-World Embodied AI Systems”。具身智能认为,认知能力从根本上源于并成形于,智体与其环境的实时感觉运动交互。这种自适应行为本质上需要在不确定的情况下进行持续推理。贝叶斯统计提供一个原则性的概率框架来应对这一挑战,它将知识表示为概率分布

2025-08-02 00:15:00 697

原创 ReAL-AD:迈向端到端自动驾驶中的类人推理

25年7月来自上海科技大学和香港中文大学的论文“ReAL-AD: Towards Human-Like Reasoning in End-to-End Autonomous Driving”。端到端自动驾驶已成为一种颇具前景的方法,它能够在单一框架内统一感知、预测和规划,从而减少信息丢失并提高适应性。然而,现有方法通常依赖于固定且稀疏的轨迹监督,这限制它们捕捉人类驾驶员自然运用的分层推理过程的能力。为了弥补这一差距,提出 ReAL-AD,一个推理增强学习框架,它基于三层人类认知模型(驾驶策略、驾驶决策和

2025-08-02 00:15:00 1824

原创 VLA-Touch:通过双层触觉反馈增强视觉-语言-动作模型

25年7月来自新加坡 NUS 的论文“VLA-Touch: Enhancing Vision-Language-Action Models with Dual-Level Tactile Feedback”。触觉反馈被普遍认为对于与物理世界的有效交互至关重要。然而,最先进的视觉-语言-动作 (VLA) 模型缺乏解释和使用触觉信号的能力,限制了它们在接触丰富的任务中的有效性。由于缺乏大型多模态数据集,将触觉反馈融入这些系统具有挑战性。VLA-Touch,通过触觉感知来增强通用机器人策略,而无需对基础 VL

2025-08-01 00:15:00 1127

原创 视觉-语言-动作指令调整:从理解到操作

25年7月来自中科大、浙大和上海 AI 实验室的论文“Vision-Language-Action Instruction Tuning: From Understanding to Manipulation”。为了在现实世界中有效运作,机器人必须将多模态推理与精确的动作生成相结合。然而,现有的视觉-语言-动作 (VLA) 模型往往舍本逐末,将其能力局限于特定任务的操作数据,并且会遭受预训练的视觉-语言能力的灾难性遗忘。为了弥补这一差距,InstructVLA,一个端到端的 VLA 模型,保留大型视觉-

2025-08-01 00:15:00 1243

原创 EgoDex:从大规模自我中心视频中学习灵巧操作

25年5月来自 Apple 公司的论文“EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video”。模仿学习在操作方面存在众所周知的数据稀缺问题。与自然语言和二维计算机视觉不同,目前尚无互联网规模的灵巧操作数据库。一个颇具吸引力的选择是以自我为中心的人类视频,这是一种被动可扩展的数据源。然而,现有的大规模数据集(例如 Ego4D)缺乏原生手势标注,且不专注于物体操作。为此用 Apple Vision Pro 收集

2025-07-31 00:15:00 2075

原创 一个对多任务灵巧操作大型行为模型的检验

25年7月来自 TRI 的论文“A Careful Examination of Large Behavior Models for Multitask Dexterous Manipulation”。近年来,机器人操作取得长足的进步,模仿学习策略使得人们能够成功完成灵巧且难以建模的任务。同时,数据和模型规模的扩展促进功能强大的语言和视觉基础模型的开发,从而激发人们大规模地努力创建通用机器人基础模型。虽然这些模型已经获得极大的热情和投入,但对现实世界性能进行有意义的评估仍然是一个挑战,这既限制了开发速度

2025-07-31 00:15:00 687

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除