Hold My Beer: Learning Gentle Humanoid Locomotion and End-Effector Stabilization Control

Hold My Beer: Learning Gentle Humanoid Locomotion and End-Effector Stabilization Control

Hold My Beer: Learning Gentle Humanoid Locomotion and End-Effector Stabilization Control

研究动机

  • 当前的人形机器人无法做到在移动过程中进行精细末端执行器稳定操作;
  • 机器人行走需要通过可通行性来实现,而末端执行器稳定操作需要一个尽可能小幅度的运动来保证精度。而下肢行走的控制频率一般相对较低,而上肢要实现稳定精细操作需要高控制频率。

解决方案

提出慢速-快速双代理强化学习框架SoFTA,将上身和下身的动作和价值空间分离。该设计允许不同的执行频率和奖励结构:上身代理以高频执行进行精细的末端执行器控制,而下身代理则以较低频率优先进行稳健移动。

在这里插入图片描述

技术路线

问题形式化为一个目标条件强化学习任务,其中策略 π ( s t p r o p , s t g o a l ) \pi(s_t^{prop},s_t^{goal}) π(stprop,stgoal)被训练输出一个动作 a t ∈ R 27 a_t\in\mathbb{R}^{27} atR27,表示目标关节位置。本体感知输入 s t p r o p s_t^{prop} stprop包括5帧关节位置、关节速度、机器人角速度、投影重力向量和上一帧动作。目标状态 s t g o a l s_t^{goal} stgoal包括机器人线速度、目标偏航角速度、机器人期望方向、 c t g o a l ∈ R 2 c_t^{goal}\in\mathbb{R}^2 ctgoalR2(包含站立/行走命令和步态频率的二进制指令)以及 c t E E ∈ R 5 × n c_t^{EE}\in\mathbb{R}^{5\times n} ctEER5×n编码末端执行器命令。其中 n n n表示末端执行器数量,每个末端执行器都有5维指令,指示其是否用于执行稳定、局部坐标系中的 x x x y y y坐标以及全局坐标系中的 z z z坐标和跟踪误差 σ \sigma σ

使用PPO算法,定义奖励函数 r t r_t rt以实现稳定的末端执行器控制:
1)惩罚线速度和角加速度:
r a c c = − ∣ ∣ p ¨ E E ∣ ∣ 2 2 , r a n g − a c c = − ∣ ∣ ω ˙ E E ∣ ∣ 2 2 r_{acc}=-||\ddot{p}_{EE}||_2^2,r_{ang-acc}=-||\dot{\omega}_{EE}||_2^2 racc=∣∣p¨EE22rangacc=∣∣ω˙EE22
2)鼓励接近零的加速度:
r z e r o − a c c = e x p ( − λ a c c ∣ ∣ p ¨ E E ∣ ∣ 2 2 ) , r z e r o − a n g − a c c = e x p ( − λ a n g − a c c ∣ ∣ ω ˙ E E ∣ ∣ 2 2 ) r_{zero-acc}=exp(-\lambda_{acc}||\ddot{p}_{EE}||_2^2),r_{zero-ang-acc}=exp(-\lambda_{ang-acc}||\dot{\omega}_{EE}||_2^2) rzeroacc=exp(λacc∣∣p¨EE22)rzeroangacc=exp(λangacc∣∣ω˙EE22)
3)惩罚末端执行器坐标系中的重力倾斜:
r g r a v − x y = − ∣ ∣ P x y ( R E E T g ) ∣ ∣ 2 2 r_{grav-xy}=-||P_{xy}(R_{EE}^Tg)||_2^2 rgravxy=∣∣Pxy(REETg)22
其中 P ¨ E E \ddot{P}_{EE} P¨EE是线加速度, ω ˙ E E \dot{\omega}_{EE} ω˙EE是角加速度, λ a c c \lambda_{acc} λacc λ a n g − a c c > 0 \lambda_{ang-acc}>0 λangacc>0分别是指数奖励尺度因子, R E E R_{EE} REE为旋转矩阵, g g g为重力向量, P x y P_{xy} Pxy表示投影到xy平面上。

在动力学层面,行走由离散的地面接触力控制,且由于其较长的时间尺度,表现出“较慢”的动力学特性。相比之下,上半身具有“较快”的动力学特性,因此需要提供更激进和更高频率的控制策略。鉴于较高的控制频率往往会增加敏感性并加剧sim2real的gap,而较低的频率虽然精度不够但是更易于部署,因此相应调节控制速率是有益的。

由于上半身和下半身的控制动力学和时间尺度不同,它们的奖励信号本质上是异质的,这可能导致干扰和次优学习。将整体奖励分解为两个语义对齐的组件,每个组件都针对各自的PPO代理,促进代理间的公平合作。为进一步鼓励协作行为和持续的任务执行,在两个奖励流中都包含了终止奖励,虽然两个代理共享相同的观察空间,但它们使用独立的actor和critic网络,不共享参数。

奖励函数组成:

在这里插入图片描述

实验结果

请阅读原文。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值