abs
强化学习 (rl) 有望实现复杂机器人操作技能的自主获取,但在现实环境中实现这种潜力具有挑战性。我们提出了一种人在环视觉的rl系统,该系统在各种灵巧操作任务上展示了令人印象深刻的性能,包括动态操作、精度组装和双臂协调。我们的方法集成了演示和人工更正、高效的 rl 算法和其他系统级设计选择,以学习 policies,这些 policies 在 1 到 2.5 小时的训练内实现了近乎完美的成功率和快速的循环时间。我们表明,我们的方法显着优于模仿学习基线和先前的 rl 方法,成功率平均提高了 2 倍,执行速度快 1.8 倍。通过广泛的实验和分析,我们对我们方法的有效性提供了见解,证明了它在反应和预测控制策略下如何学习稳健、自适应的policies。我们的结果表明,rl 在实际训练时间内确实可以直接在现实世界中学习广泛的基于视觉的操作 policies。我们希望这项工作能够激发新一代学习的机器人操作技术,有利于工业应用和研究进展。视频和代码可在我们的项目网站 https://hil-serl.github.io/ 获得。
1. Introduction
操作是机器人技术中的一个基本问题,在动态、灵巧的操作任务上实现人类水平的性能是该领域长期追求(cui 和 trinkle,2021)。强化学习(rl)有望实现复杂灵巧机器人技能的自主获取。通过试错学习,有效的 rl 方法原则上应该能够获得高度熟练的技能,这些技能是为部署任务的特定物理特性量身定制的。这可能导致性能不仅超过了手工设计的控制器,而且超过了人类远程操作。然而,由于样本复杂性、假设(例如,准确的奖励函数)和优化稳定性等问题,在现实环境中实现这一承诺是具有挑战性的。rl方法在模拟中对训练是有效的(hwangbo等人,2019;lee等人,2020;chen等人2023;loquercio等人,2021),以及针对广泛泛化的现有大型真实数据集进行训练(kalashnikov等人,2018;2021)。它们也被用于手工设计的特征或表示,用于狭义定制的任务。然而,开发通用基于视觉的方法,可以有效地获取物理上复杂的技能,熟练程度超过模仿学习和手工设计的控制器,比较困难。我们相信,在这个前沿取得根本进展可以解锁新的机会,然后这将使开发真正高性能的机器人操作policies。
在本文中,我们开发了一种用于基于视觉的操作的强化学习 (RL) 系统,该系统可以获得广泛的精确和灵巧的机器人技能。我们的系统名为Human-in-the-Loop SampleEfficient Robot Reinforcement Learning (HIL-SERL),通过整合许多组件来解决前面提到的挑战,这些组件能够在现实世界中实现快速和高性能的基于视觉的 RL。
为了解决优化稳定性问题,我们对 policy 学习使用预训练的视觉主干。为了处理样本复杂性问题,我们使用基于 rlpd (ball et al., 2023) 的样本高效的非策略 rl 算法,该算法还包含人类演示和更正。此外,还包括精心设计的低级控制器,以确保 policy 训练期间的安全性。在训练期间,系统查询人工操作员进行潜在的更正,然后用于以非策略方式更新 policy。我们发现这种人在环校正过程对于使 policy 从错误中学习并提高性能至关重要,特别是对于本文中考虑的具有挑战性的任务,这些任务很难从头开始学习。
如图1所示,我们的系统解决的任务包括动态翻转锅中的物体,从塔里拿出一个jenga块,在两个臂之间穿物体,以及组装复杂的设备,如计算机母板、ikea货架、汽车仪表板或定时带,使用一个或两个机械臂。这些任务在复杂和复杂的动力学 complex and intricate dynamics、高维状态和动作空间、长视野或其组合方面提出了重大挑战。其中一些技能以前被认为在现实世界的环境中直接使用 rl 进行训练是不可行的,例如许多双臂操作任务,或者与当前机器人方法几乎无法克服,例如定时带组装或 jenga whping。它们需要不同类型的控制策略,例如用于精确操作任务的反应性闭环控制或难以规定的精细开环行为 reactive closed-loop control for precise manipulation tasks or delicate open-loop behaviors,例如 jenga whping。然而,也许最令人惊讶的发现是,我们的系统可以在几乎所有任务中训练 rl policies 以实现近乎完美的成功率和超人循环时间 super-human cycle times,只有 1 小时到 2.5 小时的训练时间在现实世界中。我们训练的 rl policies 大大优于在相同数量的人类数据上训练的模仿学习方法,例如相同数量的演示或更正集,在成功率方面平均提高了 101%,循环时间快 1.8 倍。结果很重要,因为它表明 rl 在实际训练时间内确实可以直接在现实世界中学习广泛的基于视觉的操作 policies,这在早期的方法中以前被认为是不可行的。此外,rl 确实如此具有超人类的性能水平,大大超过了模仿学习和手工设计的控制器。
为了评估我们系统的有效性,我们将其与几种 state-of-the-art rl 方法进行比较,并进行消融研究以了解每个组件的贡献。结果表明,我们的系统不仅优于相关基线,而且突出了令人印象深刻的实证结果确实是由于这些组件的仔细集成。此外,我们对实证结果进行了全面分析,为基于 rl 的操作的有效性提供了见解。该分析探索了为什么 rl 实现了近乎完美的成功率,并进一步检查了 rl policies 作为通用基于视觉的 policy 的灵活性,用于获取不同类型的控制策略。
总之,我们的贡献表明,在适当的系统级设计选择下,RL可以有效地解决现实世界中广泛的灵巧和复杂的基于视觉的操作任务。值得注意的是,据我们所知,我们的系统是第一个在现实环境中使用 RL 与图像输入实现双臂协调的任务,以及抛出 Jenga 块和组装定时带等任务。我们还对基于 RL 的操作的经验成功进行了全面分析,为基于 RL 的操作的有效性提供了见解。该分析塑造了我们对 RL 在这些复杂任务中成功的原因的理解,并提出了将基于 RL 的操作进一步扩展到更具挑战性的场景的潜在方向。
随着本文给出的结果,我们希望这项工作将成为未来基于学习的机器人操作研究的垫脚石,从长远来看,可以实现能够适应不同环境和任务的鲁棒可部署机器人操作技能,使我们更接近通用机器人操作的目标。
2. Related Work
该系统使用 RL 来解决灵巧的操作任务,因此我们调查了现实世界机器人 RL 方法和系统的相关工作,以及解决类似灵巧操作任务的其他方法。
Algorithms and systems for real-world RL
现实世界的机器人强化学习(RL)需要在处理高维输入(如机载感知)方面具有样本效率的算法,并支持轻松指定奖励和重置 easy specification of rewards and resets。几种算法已经证明了在现实世界中直接高效学习的能力(Riedmiller等人,2009;Levine等人,2016;Luo等人,2021;Yang等人,2020;Zhan等人,2021;Tebbe等人,2021;Popov等人,2019;赵等人,2022;Hu等人,2019;Hu等人、2024b;Johannink等人,2019;Hu等人、2024a;Rajeswaran等人,2018;Schoettler等人,2020;Luo等人、2024a)。这些包括off-policy RL 的变体(Kostrikov 等人、2023;Hu 等人、2024b;Luo 等人、2023)、基于模型 model-based 的 RL(Hester 和 Stone,2013;Wu 等人,2022;Nagabandi 等人,2019;Rafilov 等人,2021;Luo 等人,2018)和 on-policy 的 RL(Zhu 等人,2019)。尽管取得了进展,但这些通常需要很长的训练时间。我们的系统以更短的训练时间在复杂任务上实现了超人类的性能。其他工作已经研究了通过成功分类器从原始视觉观察中推断出奖励(Fu et al., 2018; Li et al., 2021)、基于基础模型的奖励(Du et al., 2023; Mahmudieh et al., 2022; Fan et al., 2022)和视频中的奖励(Ma et al., 2023b;a)。此外,为了实现自主训练,无重置学习有许多算法的进步(Gupta 等人,2021;Sharma 等人,2021;Zhu 等人,2020;Xie 等人,2022;Sharma 等人,2023),在训练期间需要最少的人工干预。虽然我们没有在这些领域引入新的算法,但我们的框架有效地集成了现有方法。如方法部分所述,使用带有演示的基于二元分类器的奖励对于本文中的复杂任务是有效的。
我们研究最相关的工作之一是 SERL(luo et al., 2024a),它还提出了一个训练强化学习 (rl) policies 以进行操作任务的系统。我们的方法与 SERL的不同之处在于:我们结合了人类演示和更正来训练 rl policies,而 SERL仅依赖于人类演示。虽然这似乎是一个小区别,但我们的结果表明,集成校正 integrating corrections对于使 policy 从错误中学习并提高性能至关重要,特别是对于 agent 难以从头开始学习的任务。此外,serl 专注于具有相对较短视野的更简单的任务,并且没有解决双臂协调或动态操作。我们的独特贡献是证明我们的方法可以有效地学习通用基于视觉的操作policies,跨越各种具有不同物理特性的任务,设置我们的系统与之前关于serl的工作根本不同。
Dexterous robotic manipulation
对于本文中考虑的一些任务,先前的工作已经探索了替代方法。在插入任务中,先前的工作使用了基于模型的方法(tang et al., 2016; jin et al., 2021)和具有被动顺应性的末端执行器工具机制(morgan* et al., 2021; su et al., 2022)。这些方法通常依赖于没有感知的状态 state-based 模型,或者需要特定于任务的开发,限制了鲁棒性和适应性。另一种方法是在多阶段pipeline中使用视觉伺服将机械臂与目标对齐,然后搜索原语进行插入(spector et al., 2022;chang et al., 2024;song等人,2015)。他们还面临特征可靠性和对齐精度的挑战。相比之下,我们的方法采用了更严格的感知-动作循环。它以闭环的方式学习与任务相关的视觉特征和视觉运动policies,这对许多反应性高精度任务至关重要。从控制的角度来看,学习到的policy可以被视为输出反馈控制的一个实例(astrom和murray, 2008)。
还有一些关于处理本文中考虑的动态操作任务的工作(mason 和 lynch,1993)。kormushev等人(2010)利用动作捕捉系统和动态运动原语(ijspeert et al., 2013)来学习翻转锅中的物体。然而,我们的入系统直接使用像素输入,这减轻了对精确动作捕捉系统的需求,同时实现了明显更高的成功率。fazeli等人(2019)提出了一种以准动态的方式从塔推出jenga块的学习方法。然而,我们的方法使用 wp 动态删除 jenga 块,提出了一个更具挑战性的任务,该任务需要更复杂的控制 policy。此外,虽然有关于柔性对象操作的研究,如电缆路由(luo et al., 2024b;jin et al., 2019)、跟踪或解开(viswanath et al., 2023;shivakumar et al., 2023;viswanath et al., 2022),本文中的正时皮带装配任务要求两个臂之间进行反应灵敏但精确的协调,以动态调整张紧器和正时皮带。这项任务与之前关于电缆操纵的工作有着根本的不同,也更具挑战性
3. Human-in-the-Loop Reinforcement Learning System
在本节中,我们将详细描述本文中使用的方法。对于总结所提出方法的animated movie,请参阅适应视频。
3.1. Preliminaries and Problem Statement
机器人强化学习任务可以通过 mdp 定义,其中
是状态观察(例如,图像与机器人的本体感受状态信息相结合),
是动作(例如,所需的末端执行器扭曲 the desired end-effector twist),
是初始状态的分布,
是依赖于系统动力学的未知和潜在随机转移概率,
是奖励函数,它对任务进行编码。最优 policy 𝜋 是最大化奖励累积期望值的方法,即