论文链接:https://arxiv.org/abs/1806.07857
本文为笔者阅读该文章的笔记整理,有任何问题欢迎与我交流,邮箱是[email protected] / [email protected]
#解决奖励延迟的强化学习算法:RUDDER
强化学习
一、回顾马尔可夫决策过程(MDP):
在进行讨论之前我们有必要回顾MDP,MDP是由一个6元组(S,A,R,p,π,γ)唯一确定的, 是有限状态集合, 是表示t时刻状态的随机变量,A代表动作, 代表t时刻动作的随机变量,R代表奖励, 代表t时刻的奖励的随机变量,P是转移奖励,比如:
二、MDP估计的偏差的方差分析:
1.奖励延迟使学习效果恶化
文章用了大量的篇幅说明了奖励延迟造成的问题,在此我们不多做介绍,我们只接受事实,奖励延迟会造成估计的方差变大。
-
回报等价的定义:如果两个MDP仅在 p ( r ~ ∣ s , a ) p(\tilde r|s,a) p(r~∣s,a)与 p ( r ∣ s , a ) p(r|s,a) p(r∣s,a)不同,但两者在相同策略下却有相同的期望回报 v ~ 0 π = v 0 π \tilde v_0^{\pi}=v_0^{\pi} v~0π=v0π,那么我们称这两个MDP过程是回报等价的。
-
回报等价的性质:两个回报等价的过程具有相同的最优策略。
-
状态丰富的定义:我们称一个MDP P ~ \tilde P P~相比于 P P P是状态丰富的,当且仅当 p p p同构于 p ~ \tilde p p~的子集,比较直观的描述是说:如果 p ~ \tilde p p~与 P P P拥有相同的状态、动作、转移概率,以及奖励概率.但是 p ~ \tilde p p~的状态拥有更多的更多的信息。
-
状态丰富的性质:状态丰富不改变最优策略以及 Q Q Q-values.
2.延迟奖励的MDP与即时奖励的MDP过程之间的等价
首先,考虑一个即时奖励的MDP过程,我们将他转换成一个延时奖励的MDP过程 p ~ \tilde p p~,这里有一种很显然的转换方式,定义转换后的过程