2024年AEI SCI1区TOP,强化学习人工兔优化算法RLTARO+山地森林地形无人机编队路径规划,深度解析+性能实测


1.摘要

无人机编队路径规划在山区森林监测任务中具有重要意义,受限于陡峭复杂的地形与茂密的植被,规划最优飞行路径面临较大挑战。因此,本研究构建了融合飞行距离、碰撞风险与路径稳定性等多重约束的数学模型,将复杂的编队路径规划问题转化为优化求解问题。针对该多约束优化问题,提出了融合强化学习与热传导搜索策略的人工兔子优化算法(RLTARO)提升在复杂场景中的全局探索与局部开发能力以及收敛性能。

2.山地森林地形无人机编队路径规划数学模型

常见无人机模型包含路径成本,障碍物成本,高度成本,平滑度成本,无人机间惩罚。

监控区域覆盖成本

山区森林复杂的地形与茂密的植被,使无人机编队监测面临显著挑战。覆盖成本函数主要包括未覆盖区域成本与重叠覆盖成本:
F u n c o v e r e d = A t o t a l − ( ⋃ i = 1 N A c o v e r e d ( u i ) ) F_{\mathrm{uncovered}}=A_{\mathrm{total}}-\left(\bigcup_{i=1}^NA_{\mathrm{covered}}(u_i)\right) Funcovered=Atotal(i=1NAcovered(ui))
F o v e r l a p = ∑ i = 1 N − 1 ∑ j = i + 1 N ( A c o v e r e d ( u i ) ⋂ A c o v e r e d ( u j ) ) F_{\mathrm{overlap}}=\sum_{i=1}^{N-1}\sum_{j=i+1}^{N}\left(A_{\mathrm{covered}}(u_{i})\bigcap A_{\mathrm{covered}}(u_{j})\right) Foverlap=i=1N1j=i+1N(Acovered(ui)Acovered(uj))

综上,监控区域覆盖成本:
F 7 ( P a t h ) = F u n c o v e r e d + F o v e r l a p F_7(Path)=F_{\mathrm{uncovered}}+F_{overlap} F7(Path)=Funcovered+Foverlap

3.人工兔优化算法ARO算法原理

【智能算法】人工兔优化算法(ARO)原理及实现

4.RLTARO算法

RLTARO算法融合了热传导搜索策略,群体精英学习机制Levy飞行策略,QI策略。

PS:策略挺常见,不赘述。

为提升RLTARO算法在动态环境下的适应性与优化性能,引入强化学习动态策略选择机制。强化学习通过环境交互实时反馈,实现智能体对全局与局部策略的动态权衡调整,兼顾路径长度、避障能力与监测任务完成质量等多目标优化。RLTARO算法采用Q-learning算法,通过学习状态-动作值(Q值)不断更新决策依据,实现策略选择的动态优化。

Q t + 1 ( s t , a t ) = Q ( s t , a t ) + β ⋅ [ r e t + 1 + μ ⋅ max ⁡ a Q ( s t + 1 , a t ) − Q ( s t , a t ) ] β a n d μ ∈ [ 0 , 1 ] Q_{t+1}(s_t,a_t)=Q(s_t,a_t)+\beta\cdot[re_{t+1}+\mu\cdot\max_aQ(s_{t+1},a_t)-Q(s_t,a_t)]\beta\mathrm{and}\mu\in[0,1] Qt+1(st,at)=Q(st,at)+β[ret+1+μamaxQ(st+1,at)Q(st,at)]βandμ[0,1]

RLTARO算法构建一个包含 N p N_p Np个个体,3个动作的Q表,用于动态指导更新策略选择。每行对应种群中的一个个体状态,每列对应一种更新策略。为避免算法在后期陷入贪婪选择而丧失探索能力,采用 ε − g r e e d y \varepsilon\mathrm{-greedy} εgreedy策略。

a = { r a n d o m ( a ∈ A c ) , i f   ϵ ⩽ r a r g m a x a ∈ A c Q ( s t , a t ) , e l s e \left.a=\left\{ \begin{array} {ll}random(a\in Ac), & \mathrm{if~}\epsilon\leqslant r \\ \mathrm{argmax}_{a\in Ac}Q(s_t,a_t), & \mathrm{else} \end{array}\right.\right. a={random(aAc),argmaxaAcQ(st,at),if ϵrelse

RLTARO算法伪代码

RLTARO算法流程图

5.结果展示

论文仿真1

论文仿真2

CEC2017






应用案例

6.参考文献

[1] Wang W, Li X, Tian J. UAV formation path planning for mountainous forest terrain utilizing an artificial rabbit optimizer incorporating reinforcement learning and thermal conduction search strategies[J]. Advanced Engineering Informatics, 2024, 62: 102947.

7.代码获取

xx

8.算法辅导·应用定制·读者交流

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小O的算法实验室

谢谢大佬的肯定!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值