1.摘要
无人机编队路径规划在山区森林监测任务中具有重要意义,受限于陡峭复杂的地形与茂密的植被,规划最优飞行路径面临较大挑战。因此,本研究构建了融合飞行距离、碰撞风险与路径稳定性等多重约束的数学模型,将复杂的编队路径规划问题转化为优化求解问题。针对该多约束优化问题,提出了融合强化学习与热传导搜索策略的人工兔子优化算法(RLTARO)提升在复杂场景中的全局探索与局部开发能力以及收敛性能。
2.山地森林地形无人机编队路径规划数学模型
常见无人机模型包含路径成本,障碍物成本,高度成本,平滑度成本,无人机间惩罚。
监控区域覆盖成本
山区森林复杂的地形与茂密的植被,使无人机编队监测面临显著挑战。覆盖成本函数主要包括未覆盖区域成本与重叠覆盖成本:
F
u
n
c
o
v
e
r
e
d
=
A
t
o
t
a
l
−
(
⋃
i
=
1
N
A
c
o
v
e
r
e
d
(
u
i
)
)
F_{\mathrm{uncovered}}=A_{\mathrm{total}}-\left(\bigcup_{i=1}^NA_{\mathrm{covered}}(u_i)\right)
Funcovered=Atotal−(i=1⋃NAcovered(ui))
F
o
v
e
r
l
a
p
=
∑
i
=
1
N
−
1
∑
j
=
i
+
1
N
(
A
c
o
v
e
r
e
d
(
u
i
)
⋂
A
c
o
v
e
r
e
d
(
u
j
)
)
F_{\mathrm{overlap}}=\sum_{i=1}^{N-1}\sum_{j=i+1}^{N}\left(A_{\mathrm{covered}}(u_{i})\bigcap A_{\mathrm{covered}}(u_{j})\right)
Foverlap=i=1∑N−1j=i+1∑N(Acovered(ui)⋂Acovered(uj))
综上,监控区域覆盖成本:
F
7
(
P
a
t
h
)
=
F
u
n
c
o
v
e
r
e
d
+
F
o
v
e
r
l
a
p
F_7(Path)=F_{\mathrm{uncovered}}+F_{overlap}
F7(Path)=Funcovered+Foverlap
3.人工兔优化算法ARO算法原理
【智能算法】人工兔优化算法(ARO)原理及实现
4.RLTARO算法
RLTARO算法融合了热传导搜索策略,群体精英学习机制Levy飞行策略,QI策略。
PS:策略挺常见,不赘述。
为提升RLTARO算法在动态环境下的适应性与优化性能,引入强化学习动态策略选择机制。强化学习通过环境交互实时反馈,实现智能体对全局与局部策略的动态权衡调整,兼顾路径长度、避障能力与监测任务完成质量等多目标优化。RLTARO算法采用Q-learning算法,通过学习状态-动作值(Q值)不断更新决策依据,实现策略选择的动态优化。
Q t + 1 ( s t , a t ) = Q ( s t , a t ) + β ⋅ [ r e t + 1 + μ ⋅ max a Q ( s t + 1 , a t ) − Q ( s t , a t ) ] β a n d μ ∈ [ 0 , 1 ] Q_{t+1}(s_t,a_t)=Q(s_t,a_t)+\beta\cdot[re_{t+1}+\mu\cdot\max_aQ(s_{t+1},a_t)-Q(s_t,a_t)]\beta\mathrm{and}\mu\in[0,1] Qt+1(st,at)=Q(st,at)+β⋅[ret+1+μ⋅amaxQ(st+1,at)−Q(st,at)]βandμ∈[0,1]
RLTARO算法构建一个包含 N p N_p Np个个体,3个动作的Q表,用于动态指导更新策略选择。每行对应种群中的一个个体状态,每列对应一种更新策略。为避免算法在后期陷入贪婪选择而丧失探索能力,采用 ε − g r e e d y \varepsilon\mathrm{-greedy} ε−greedy策略。
a = { r a n d o m ( a ∈ A c ) , i f ϵ ⩽ r a r g m a x a ∈ A c Q ( s t , a t ) , e l s e \left.a=\left\{ \begin{array} {ll}random(a\in Ac), & \mathrm{if~}\epsilon\leqslant r \\ \mathrm{argmax}_{a\in Ac}Q(s_t,a_t), & \mathrm{else} \end{array}\right.\right. a={random(a∈Ac),argmaxa∈AcQ(st,at),if ϵ⩽relse
5.结果展示
CEC2017
6.参考文献
[1] Wang W, Li X, Tian J. UAV formation path planning for mountainous forest terrain utilizing an artificial rabbit optimizer incorporating reinforcement learning and thermal conduction search strategies[J]. Advanced Engineering Informatics, 2024, 62: 102947.
7.代码获取
xx