突破具身智能“专家困境”!北大新方法让宇树G1靠单一框架掌握跳舞和侧手翻

BumbleBee团队 投稿
量子位 | 公众号 QbitAI

人形机器人对跳舞这件事,如今是越来越擅长了。

比如跳一支查尔斯顿舞,一分四十秒的丝滑摇摆,稳定得像踩着节拍器:

不过,它们能否像人类一样自如切换跳舞、体操、日常操作等不同的动作模式?

北京大学与BeingBeyond团队联合研发的BumbleBee系统给出了最新答案:通过创新的“分治-精炼-融合”三级架构,该系统首次实现人形机器人在多样化动作中的稳定控制。

破解“专家困境”与“现实鸿沟”

传统人形机器人控制策略长期面临两大核心挑战:

  • 专家困境:单一任务优化导致系统复杂度增长,难以覆盖多场景需求。

  • 现实鸿沟:仿真环境训练的策略在真实物理世界中表现断崖式下降,动作执行精度与稳定性无法保障。

BumbleBee系统通过“分治-精炼-融合”三级架构,首次在单一控制框架内实现从专家策略优化到通用全身控制的跨越,为通用具身智能控制提供了全新解决方案。

运动-语义联合驱动的动作分类:构建动作理解的“双通道”

系统通过多模态特征构建与联合隐空间对齐,实现动作在运动学与语义层面的双重表征:

  • 运动学特征提取:基于SMPL格式的人类运动序列,通过前向运动学转换为世界坐标系中的3D关节坐标(如头部、骨盆、手脚等关键点),并补充脚部速度、根节点位移等动态物理量;最后通过Transformer编码。

  • 语义特征编码:利用BERT模型对动作文本描述(如“托马斯回旋:水平旋转360度,双手支撑地面”)进行编码处理,并通过Transformer映射至与运动特征同维度的隐空间。

  • 联合潜在空间对齐:通过对比学习将运动特征与语义特征在同一隐空间对齐,确保具有相似语义或者运动特征的动作在隐空间中靠近,形成运动-语义联合表征。

  • K-means聚类:在隐空间中对运动数据进行分类,形成结构化数据集。相较于传统手工分类,该方法自动捕捉动作的运动学特征与语义的关联,使聚类结果在运动学与语义上的一致性得到提升。

仿真到现实的差异建模:弥合“现实鸿沟”

  • 专家策略训练:在每个动作簇内训练专家运动跟踪策略,并通过增量动作模型(Delta Action)补偿仿真与现实的物理差异(如电机延迟、地面摩擦力变化)。

  • 多专家融合的通用策略:通过DAgger算法将多个专家策略的知识蒸馏到一个通用策略中,实现跨动作类型的无缝切换。在MuJoCo仿真环境中,通用策略的成功率达66.84%,显著优于各类基线方法;真实机器人实验中,几分钟的连续舞蹈动作成功率100%。

实验验证:数据驱动的性能突破

仿真环境:超越基线的全面优势

研究人员在IsaacGym和MuJoCo仿真环境进行了全面评估,使用任务成功率(SR)关节角误差(MPJPE)关键点误差(MPKPE)等指标对比现有方法:

在更接近真实的MuJoCo环境中,BumbleBee的成功率达到66.84%,显著优于其他基线(最高仅50.19%)。

真实机器人:稳定与灵活的双重验证

在Unitree G1平台上,系统表现出以下特性:

  • 动作稳定性:轻而易举地完成各类长程舞蹈任务。

  • 高难度动作控制:可以进行托马斯回旋、侧手翻等动作。

接下来,研究团队计划在以下方向持续突破:

  • 多模态感知融合:整合视觉-惯性里程计与触觉反馈,提升动态环境适应性。

  • 自然语言指令驱动:通过自然语言指令直接生成动作序列(如“跳一段欢快的舞蹈”)。

项目主页:https://beingbeyond.github.io/BumbleBee/ 

论文链接:https://arxiv.org/abs/2506.12779v2

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值