【强化学习】再读策略梯度_原始策略梯度-CSDN博客

本文链接：https://blog.csdn.net/weixin_39274659/article/details/148725982

这几天在思考为什么策略梯度的目标函数会是这样的形式：
$\mathcal{L}=-\sum_{k, t} Q_{k, t} \log \left(\pi\left(s_{k, t}, a_{k, t}\right)\right)$
主要奇怪于为什么突然冒出来 $log⁡\log$ 。尽管物理意义上我比较容易理解，反正就是鼓励 $Q$ 值大的动作，打压 $Q$ 值小的动作。但是还是比较较真其推导是如何来的。今天参考了DeepSeek的回答，加上一些自己的心得体会，用博客记录下。

策略梯度算法：原始目标函数、梯度、代理目标函数及其正确性

原始目标函数 (Original Objective Function)

在强化学习中，目标是最大化策略 $πθ(a∣s)\pi_\theta(a|s)$ 下的期望累积奖励。令 $τ=(s0,a0,s1,a1,…,sT)\tau = (s_0, a_0, s_1, a_1, \dots, s_T)$ 表示一个轨迹（trajectory），其中 $s_t$ 是状态， $a_t$ 是动作， $T$ 是轨迹长度（可能无限）。轨迹的累积奖励定义为：
$R(\tau) = \sum_{t=0}^{T} \gamma^t r(s_t, a_t),$
其中 $γ∈[0,1]\gamma \in [0, 1]$ 是折扣因子， $r(s_t, a_t)$ 是即时奖励。

原始目标函数 $J(θ)J(\theta)$ 是策略参数 $θ\theta$ 下的期望累积奖励：
$J(\theta) = \mathbb{E}_{\tau \sim p_\theta(\tau)} \left[ R(\tau) \right].$
这里， $pθ(τ)p_\theta(\tau)$ 是策略 $πθ\pi_\theta$ 和环境动态 $p(s_{t+1} | s_t, a_t)$ 共同定义的轨迹分布：
$p_\theta(\tau) = p(s_0) \prod_{t=0}^{T-1} \pi_\theta(a_t | s_t) p(s_{t+1} | s_t, a_t).$
优化目标是通过调整 $θ\theta$ 来最大化 $J(θ)J(\theta)$ . 这个目标函数的定义非常直观，但是很难直接对 $θ\theta$ 求梯度。换言之，不太明确该如何套用到当前神经网络已经非常成熟的反向传播流程中。

梯度 (Gradient)

策略梯度定理（Policy Gradient Theorem）提供了 $J(θ)J(\theta)$ 的梯度表达式。REINFORCE算法直接使用该梯度进行随机梯度上升。梯度的推导基于似然比技巧（Likelihood Ratio Trick）：
$\nabla_\theta J(\theta) = \nabla_\theta \mathbb{E}_{\tau \sim p_\theta(\tau)} \left[ R(\tau) \right] = \mathbb{E}_{\tau \sim p_\theta(\tau)} \left[ R(\tau) \nabla_\theta \log p_\theta(\tau) \right].$
其中， $∇θlog⁡pθ(τ)\nabla_\theta \log p_\theta(\tau)$ 是轨迹的对数似然梯度。由于环境动态 $p(s_{t+1} | s_t, a_t)$ 与 $θ\theta$ 无关，我们有：
$\nabla_\theta \log p_\theta(\tau) = \sum_{t=0}^{T-1} \nabla_\theta \log \pi_\theta(a_t | s_t).$
代入梯度表达式：
$\nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim p_\theta(\tau)} \left[ \left( \sum_{t=0}^{T-1} \nabla_\theta \log \pi_\theta(a_t | s_t) \right) R(\tau) \right].$
在实际中， $R(τ)R(\tau)$ 通常替换为从时间步 $t$ 开始的折扣累积奖励 $Gt=∑k=tTγk−tr(sk,ak)G_t = \sum_{k=t}^{T} \gamma^{k-t} r(s_k, a_k)$ （称为回报），以减小方差。这是因为动作 $a_t$ 只影响未来奖励，因此：
$\nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim p_\theta(\tau)} \left[ \sum_{t=0}^{T-1} \nabla_\theta \log \pi_\theta(a_t | s_t) \cdot G_t \right].$
这是REINFORCE算法的核心梯度公式。这里我们先在数学上推导了梯度的准确形式。

等效的代理目标函数 (Equivalent Surrogate Objective Function)

直接优化 $J(θ)J(\theta)$ 困难，因为其涉及期望计算。因此，REINFORCE使用一个代理目标函数 $J~(θ)\tilde{J}(\theta)$ ，其梯度与 $∇θJ(θ)\nabla_\theta J(\theta)$ 相同。

代理目标函数定义为：
$\tilde{J}(\theta) = \mathbb{E}_{\tau \sim p_\theta(\tau)} \left[ \sum_{t=0}^{T-1} \log \pi_\theta(a_t | s_t) \cdot G_t \right].$
注意：

$log⁡πθ(at∣st)\log \pi_\theta(a_t | s_t)$ 是动作的对数概率，而非其梯度。
$G_t$ 是从时间 $t$ 开始的折扣累积奖励。
$J~(θ)\tilde{J}(\theta)$ 是 $J(θ)J(\theta)$ 的代理（surrogate），因为优化 $J~(θ)\tilde{J}(\theta)$ 能间接优化 $J(θ)J(\theta)$ 。

代理函数的关键在于其梯度：
$\nabla_\theta \tilde{J}(\theta) = \nabla_\theta \mathbb{E}_{\tau \sim p_\theta(\tau)} \left[ \sum_{t=0}^{T-1} \log \pi_\theta(a_t | s_t) \cdot G_t \right] = \mathbb{E}_{\tau \sim p_\theta(\tau)} \left[ \sum_{t=0}^{T-1} \nabla_\theta \log \pi_\theta(a_t | s_t) \cdot G_t \right].$
这与 $∇θJ(θ)\nabla_\theta J(\theta)$ 完全一致：
$\nabla_\theta \tilde{J}(\theta) = \nabla_\theta J(\theta).$
因此， $J~(θ)\tilde{J}(\theta)$ 是 $J(θ)J(\theta)$ 的等效代理目标函数。