【RL强化学习】求解状态价值函数对策略参数的梯度-CSDN博客

本文链接：https://blog.csdn.net/m0_59475014/article/details/149399298

概述

对基于策略网络的状态价值函数定义：

$V^{\pi_\theta}(s)\;=\;\mathbb{E}_{\pi_\theta}\!\bigl[R_t \,\big|\,s_t=s\bigr]$

对策略参数 $θ\theta$ 的梯度 $∇θVπθ(s)\nabla_\theta V^{\pi_\theta}(s)$ 的常见两种推导路线：
第一条从 Bellman 方程 出发；
第二条直接把“轨迹-采样”拆开，两种方法最后得到的可采样估计式是相同的

具体求解

在这里插入图片描述
如果上图能看明白，那就不用看下去了，
只需要知道状态价值函数对策略参数的梯度是递归的，可以由前一个状态推出后一个状态，这一点对于循环执行的程序来说是极大的利好

下面是更加严谨的推导

从 Bellman 方程求梯度

Bellman 方程

$V^{\pi_\theta}(s)=\sum_{a}\pi_\theta(a\mid s)\,Q^{\pi_\theta}(s,a), \quad Q^{\pi_\theta}(s,a)=r(s,a)+\gamma\sum_{s'}P(s'\mid s,a)\,V^{\pi_\theta}(s').$

对第一式求梯度（注意 $P$ 与 $θ\theta$ 无关）：

$\boxed{ \;\nabla_\theta V^{\pi_\theta}(s) =\sum_{a}\underbrace{\nabla_\theta\pi_\theta(a\mid s)}_{\pi_\theta(a\mid s)\,\nabla_\theta\log\pi_\theta(a\mid s)}\,Q^{\pi_\theta}(s,a) +\gamma\sum_{a}\pi_\theta(a\mid s)\sum_{s'}P(s'\mid s,a)\,\nabla_\theta V^{\pi_\theta}(s')\; } \tag{1}$

把它写得更紧凑些：

$\nabla_\theta V^{\pi_\theta}(s) =G_\theta(s)+\gamma\,\mathbb{E}_{a\sim\pi_\theta,s'\sim P}\bigl[\nabla_\theta V^{\pi_\theta}(s')\bigr],$

其中
$Qπθ(s,a)]G_\theta(s)=\mathbb{E}_{a\sim\pi_\theta}\!\bigl[\nabla_\theta\log\pi_\theta(a\mid s)\,Q^{\pi_\theta}(s,a)\bigr]$ .

关系 (1) 是一个 线性方程组： $∇θV=Gθ(\mathbf I-\gamma\mathbf P^{\pi_\theta})\,\nabla_\theta V = G_\theta$
理论上可以解出闭式，但实际采样时我们更喜欢把它递归展开

递归展开 → 轨迹形式

令 $s_0=s$ ，把 (1) 右侧第二项迭代代入，可得

$\begin{aligned} \nabla_\theta V^{\pi_\theta}(s) &=G_\theta(s) +\gamma\,\mathbb{E}_{s_1\!\sim\!d_1}\!\bigl[G_\theta(s_1)\bigr] +\gamma^2\mathbb{E}_{s_2\!\sim\!d_2}\!\bigl[G_\theta(s_2)\bigr]+\dots \\ &=\mathbb{E}_{\pi_\theta}\!\Bigl[\sum_{t=0}^{\infty}\gamma^{t}\, \nabla_\theta\log\pi_\theta(a_t\mid s_t)\,Q^{\pi_\theta}(s_t,a_t)\,\Big|\,s_0=s\Bigr]. \end{aligned}$

结论 A（完全体）

$\boxed{\; \nabla_\theta V^{\pi_\theta}(s) =\mathbb{E}_{\tau\sim\pi_\theta}\Bigl[\sum_{t=0}^{\infty}\gamma^{t}\, \nabla_\theta\log\pi_\theta(a_t\mid s_t)\,Q^{\pi_\theta}(s_t,a_t)\;\Big|\;s_0=s\Bigr]}$

这个式子与 Policy-Gradient Theorem 完全同型，只是把起点固定在给定状态 $s$

用优势函数或回报替代 $Q$

优势函数 $Aπ(s,a)=Qπ(s,a)−Vπ(s)A^{\pi}(s,a)=Q^{\pi}(s,a)-V^{\pi}(s)$ ：

$\nabla_\theta V^{\pi_\theta}(s) =\mathbb{E}\Bigl[\sum_{t=0}^{\infty}\gamma^{t}\, \nabla_\theta\log\pi_\theta(a_t\!\mid\!s_t)\, A^{\pi_\theta}(s_t,a_t)\Bigm|s_0=s\Bigr],$

方差更小，actor–critic 常用
蒙特卡罗回报 $Rt=∑k=t∞γk−trkR_t=\sum_{k=t}^{\infty}\gamma^{k-t}r_k$ ：
若只能采样 $R_t$ （REINFORCE 风格），可把 $Q$ 换成 $R_t$ 拿到无偏估计，但方差大

与全局目标 $J(θ)J(\theta)$ 的联系

若起始状态服从某分布 $ρ0\rho_0$ ，则
$J(θ)=Es0∼ρ0[Vπθ(s0)]J(\theta)=\mathbb{E}_{s_0\sim\rho_0}[V^{\pi_\theta}(s_0)]$ ，

$\nabla_\theta J(\theta)=\mathbb{E}_{s_0\sim\rho_0}\bigl[\nabla_\theta V^{\pi_\theta}(s_0)\bigr],$

把刚得到的 $∇θVπθ(s0)\nabla_\theta V^{\pi_\theta}(s_0)$ 再取一次期望，就回到标准的策略梯度公式

实际实现要点

估计 $∇θlog⁡πθ\nabla_\theta\log\pi_\theta$
- 离散动作：softmax；连续动作：高斯策略常用封闭式梯度
估计 $Q$ / $A$ / $V$
- 单纯时间差分 (TD) 估计，或 GAE-λ（优势）；
- 网络参数与 $θ\theta$ 共享或分离皆可，只要保持无偏梯度
可向量化实现
把同一条轨迹自回溯（或 gae 递归）就能一次构造 $∑tγt\sum_t\gamma^t$ $∇θlog⁡πθ(⋅)\nabla_\theta\log\pi_\theta(\cdot)$ *Return
收敛性
若 critic 有偏差，把它看成控制方差-偏差权衡；在 PPO/TRPO 中通常加上信赖域或 clip，保证近似梯度仍可行