1 前言
Robot系列主要介绍一些比较有意思的机器人,前面的博客文章中也给读者朋友们展示了一些:
本篇博客介绍的是加州理工学院团队在机器人领域的重要研究成果,发表于机器人顶会 IROS 2025。该论文针对四旋翼无人机形态转换控制难题,提出了基于强化学习(RL)与模型预测控制(MPC)的对比方案,并通过实验验证了两种策略的优劣。
2 ATMO
ATMO (Aerially Transforming Morphobot)是一个空地两用的飞行机器人。通过机器人设计,控制策略,实验结果三个方面对其进行介绍。
2.1 机器人设计
-
设计挑战
地空两用机器人在形态转换时需同时处理复杂气动交互与执行器饱和问题。例如,四旋翼无人机在高速着陆时,推进器倾斜角度的动态调整易导致控制失效,传统模型驱动方法难以应对非线性耦合效应。
-
ATMO 创新设计
- 形态转换机制:通过单个直流电机驱动的闭环运动链,实现四个轮式推进器同步倾斜角度调整。该设计解决了传统多模态机器人需多电机协同的复杂性,使飞行模式与地面行驶模式切换仅需 0.3 秒。
- 机械结构优化:推进器保护罩在行驶模式下转换为车轮,采用轻量化碳纤维材料,整机重量仅 1.2kg,最大承载能力达 2kg,可适应 0.5m/s 的冲击速度。
- 空中变形能力:突破传统机器人需完全着陆后变形的限制,ATMO 可在离地 0.5-2 米高度完成形态转换,减少复杂地形中姿态失稳风险。
2.2 控制策略
端到端强化学习(RL)控制器部署到硬件系统中,并针对极具挑战性的形态转换任务,将其结果与模型预测控制(MPC)控制器进行了对比。
(1)模型预测控制(MPC)策略
-
动态模型构建
- 采用牛顿 - 欧拉方程建立四旋翼动力学模型,考虑推进器倾斜角度与地面效应的耦合影响。
- 优化目标函数
- 代价函数
(2)端到端强化学习(RL)策略
动作是经过训练的强化学习策略 π(s) 的输出结果。对于强化学习策略网络,采用了 3 个隐藏层,每个隐藏层包含 128 个单元,层与层之间使用指数线性单元(ELU)激活函数。网络输出会经过一个 sigmoid 层处理,以确保控制动作满足 。强化学习策略网络的输出为 4 个推进器控制输入
和 1 个倾斜角度速度输入
。
- 奖励函数设计
为确保机器人能获得足够丰富的奖励信息,添加了多种奖励塑造项。首先,对机器人基坐标系的线速度和角速度、动作变化率以及与水平姿态的偏差进行惩罚。根据到目标位置 xy 坐标的距离给予奖励,同时也会奖励以 0.5 米 / 秒的恒定速率下降的行为。当机器人接近地面时,还会对大倾斜角度给予奖励。最后,利用模拟器中能够精确测量接触时间和接触力的优势,对与地面接触时的大冲力进行惩罚,同时也惩罚机器人在与地面接触期间出现的非期望推进动作。
- 训练优化
采用近端策略优化算法(PPO),并借助 GPU 上的大规模并行训练能力进行模型训练。使用 RL-games 框架实现,初始学习率设为 λ = 1×10⁻⁵。模型经过 1000 次策略更新后完成训练,此时奖励已收敛至稳定值。在配备 GPU 的桌面计算机上,整个训练过程耗时约 20 分钟。
2.3 实验结果与性能对比
-
核心指标对比
指标 RL 控制器 MPC 控制器 最大着陆倾角 65°(优于理论临界值 60°) 60° 冲击速度 0.5m/s 1.0m/s 偏航漂移(30 秒内) ±2.5° ±15° 抗干扰能力 承受 5-6c_T 推力干扰后完全恢复 3c_T 干扰即失控 -
鲁棒性测试
- 执行器故障场景:RL 在单个推进器失效时仍能以 55° 倾角着陆,而 MPC 因模型失配直接坠毁。
- 地面效应影响:在离地 0.5 米高度,RL 通过自适应调整推力分配补偿气动干扰,垂直速度波动仅 ±0.1m/s,MPC 则出现 ±0.3m/s 振荡。
-
动态稳定性分析
- MPC 优势:滚转振荡幅度(±3°)显著小于 RL(±8°),适合对姿态精度要求高的场景。
- RL 改进空间:通信延迟每增加 10ms,着陆倾角下降约 2°,通过硬件升级将延迟从 20ms 降至 10ms 后,性能提升 15%。
3 结论
论文揭示了 RL 与 MPC 在多模态机器人控制中的互补性:RL 在极限工况与鲁棒性上表现卓越,而 MPC 在动态稳定性与实时性上更具优势。未来,随着硬件性能提升与算法优化,这类形态可变机器人有望在物流、勘探、救援等场景中实现规模化部署。
空地两用的机器人,在未来应用市场还是有不少的,并且低空经济也是在推行的一个政策。
参考文章:《Quadrotor Morpho-Transition: Learning vs Model-Based Control Strategies》