【强化学习笔记】策略梯度（Policy Gradient）

北下关吴中生

已于 2022-05-18 00:49:16 修改

阅读量5.6k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：强化学习文章标签：人工智能强化学习 PPO Policy Gradient 策略梯度

于 2022-05-17 12:53:42 首次发布

本文链接：https://blog.csdn.net/m0_38068876/article/details/124807806

强化学习专栏收录该内容

9 篇文章

订阅专栏

本文介绍了强化学习的基本元素，包括智能体、环境和奖励函数。智能体依据策略对环境做出动作，并根据环境反馈的奖励进行学习。文章详细阐述了回合、总奖励、轨迹、奖励期望等核心概念，并探讨了如何通过梯度下降方法求解奖励期望最大值。强化学习的目标是调整智能体的策略，以在特定环境中获得最大累计奖励。

1.基本元素

智能体（Agent/Actor，后面统一用Agent表示），相当于人；智能体内部有一个用于决策的策略（Policy），相当于人做一件事情的策略（或“方案”）。
环境（Environment）
奖励函数（Reward Function）

由于 Environment 和 Reward Function 在游戏开始之前就已经确定好了，所以唯一能做的就是通过调整 Agent（实际是调整内部的 Policy ），得到最大奖励。

Agent 中的 Policy 相当于一个函数 $π_\theta(Observation)$ 。输入是观察的内容，输出是要做出的动作。由于这个函数是未知的，所以参数用 $\theta$ 表示。以人下棋为例，Agent相当于是下棋的人，Policy是人下棋的套路（或者说是下棋的策略），Policy相当于一个函数，输入的当前棋的局势，输出是落子的位置。

2.游戏示例

游戏开始图：

游戏结束图：

游戏过程：

首先，Agent观察到游戏当前的状态（Observation）为 $s_1$ ，Agent做出了动作（Action） $a_1$ ，得到了奖励（Reward） $r_1$ 。此时，由于游戏的状态从 $s_1$ 变成了 $s_2$ 。
然后，Agent观察到游戏当前的状态（Observation）为 $s_2$ ，Agent做出了动作（Action） $a_2$ ，得到了奖励（Reward） $r_2$ 。此时，由于游戏的状态从 $s_2$ 变成了 $s_3$ 。
……
游戏走了 $T$ 步以后，游戏结束。

注意事项：
问： Observation和State含义是否相同？
答： 是相同的。Observation是从Agent的角度出发，讲Agent观察（Observation）到环境的内容；而State是从环境的角度出发，讲环境自身的状态（State）。本质是相同的，描述的是同一个东西，只是观察的角度不同而已。

3.基本概念

3.1.回合（episode）

从游戏开始到游戏结束，一局游戏称为一个回合（episode）。

3.2.总奖励（Total Reward）

总奖励（Total Reward, R）是指：一局游戏从开始到结束累积的奖励，即： $r_1 + r_2 + … + r_T = \sum\limits_{t=1}^T r_{t}$ （第一步得到的奖励 $r_1$ + 第二步得到的奖励 $r_2$ + …… + 第T步得到的奖励 $r_T$ 。）

3.3.轨迹（Trajectory）

定义：
在一局游戏中，把Agent观察到的状态 $s$ 、Agent采取的动作 $a$ 串联起来，组成一个集合，该集合称为轨迹（Trajectory），即： $\space \tau = \{s_1, a_1, s_2, a_2,…, s_T, a_T \}$ 。一局游戏对应了一个 $\tau$ ，玩了 $N$ 局游戏就能得到 $N$ 个 $\tau$ 。

某条轨迹发生的概率：
玩了 $N$ 局游戏以后，我们可以得到 $N$ 个 $\tau$ ，我们可以试图计算某条轨迹 $\tau$ 出现的概率。我们用 $p_\theta(\tau)$ 表示某个轨迹 $\tau$ 出现的概率。

公式：
$p_\theta(\tau) =p(s_1) \cdot p_\theta(a_1|s_1) \cdot p(s_2 | s_1, a_1) \cdot p_\theta(a_2 | s_2) \cdot p(s_3 | s_2, a_2)…\cdot p(s_{T+1} | s_T, a_T)$

公式解读：

$p(s_1)$ 是指：游戏环境出现状态 $s_1$ 的概率。这个概率由游戏控制的，我们无法得知也无法学习。
$p_\theta(a_1|s_1)$ 是指：当Agent观察到环境状态为 $s_1$ 时，做出动作 $a_1$ 的概率，这部分是Agent自身可以控制的。换句话说，优秀的Agent知道当观察到环境状态为 $s_1$ 时，采取什么样的动作action得到的奖励 $r_1$ 最大。如何决策，是可以学习的。我们要学习的就是参数 $\theta$ 。
$p(s_2 | s_1, a_1)$ 是指：在状态 $s_1$ 下，Agent采取了 $a_1$ 的动作后，环境跳转到状态 $s_2$ 的概率。这个概率由游戏控制的，我们无法得知也无法学习。
$p_\theta(a_2 | s_2)$ 是指：当Agent观察到环境状态为 $s_2$ 时，做出动作 $a_2$ 的概率，这部分是Agent自身可以控制的。如何决策，是可以学习的。我们要学习的就是参数 $\theta$ 。

公式推导：

$\begin{aligned} p_\theta(\tau) &= p(s_1) \cdot p_\theta(a_1|s_1) \cdot p(s_2 | s_1, a_1) \cdot p_\theta(a_2 | s_2) \cdot p(s_3 | s_2, a_2) \cdots p(s_{T+1} | s_T, a_T) \\ &= p(s_1) \cdot [p_\theta(a_1|s_1) \cdot p_\theta(a_2|s_2) \cdots p_\theta(a_T|s_T)]\cdot[p(s_2 | s_1, a_1) \cdot p(s_3 | s_2, a_2) \cdots p(s_{T+1} | s_T, a_T)] \\ &=p(s_1) \cdot \prod\limits_{t=1}^T p_\theta(a_t|s_t) \cdot \prod\limits_{t=1}^T p(s_{t+1}|s_t, a_t) \\ &=p(s_1) \cdot \prod\limits_{t=1}^T p_\theta(a_t|s_t) \cdot p(s_{t+1}|s_t, a_t) \end{aligned}$

其中：

$p(s_1)$ 和 $p(s_{t+1}|s_t, a_t)$ 是游戏环境的参数，与Agent无关，Agent不能控制。
$p_\theta(a_t|s_t)$ 是在 $s_t$ 状态下采取行动 $a_t$ 的概率，是Agent可以控制的，通过学习可以得到 $p_\theta(a_t|s_t)$ 的概率。同时根据学习可以知道面对环境状态 $s_t$ 时，采取哪个 $a_t$ 得到的奖励多，那我们就可以增加这个 $a_t$ 的概率。

3.4.奖励期望（Expected Reward）

通过不断地玩游戏，可以获得游戏的奖励期望（Expected Reward），用 ${\overline{R}_\theta}$ 表示。
奖励期望可以理解成：玩游戏获得的平均奖励。玩了N局游戏，得到了N条轨迹。根据全概率公式，计算每条轨迹出现的概率以及对应的奖励，可以获得奖励期望。

${\overline{R}_\theta} = \sum\limits_{\tau} R(\tau) \cdot p_\theta(\tau) = E_{\tau \sim p_{\theta}(\tau)}[R(\tau)]$

$R(\tau)$ ：指的是某条轨迹对应的总的奖励值。

$p_\theta(\tau)$ ：指的是某条轨迹出现的概率。

对应关系：
$1$ 个奖励期望对应了 $N$ 条游戏轨迹 $\tau$ 。
$1$ 条游戏轨迹 $\tau$ 对应了游戏的 $T$ 步（骤）。

3.5.求奖励期望最大值

我们的目标是想知道模型Agent什么时候可以得到最大的奖励期望值 ${\overline{R}_\theta}$ 。但模型是带有参数 $\theta$ 的，我们需要通过解方程知道当参数 $\theta$ 值为多少时，可以获得最大的奖励期望值。（知道 $\theta$ 的取值，模型就是已知模型了。）在此，我们利用梯度下降的方法进行 $\theta$ 的求解。

梯度下降法更新公式： $\theta = \theta + \eta \cdot \nabla{\overline{R}_\theta}$
其中， $\eta$ 是学习率，是人为设置的。 $\nabla{\overline{R}_\theta}$ 是对 ${\overline{R}_\theta}$ 的梯度值，因此需要先对 ${\overline{R}_\theta}$ 求梯度。