RUDDER:回报分解解决强化学习得奖励延迟问题

论文链接:https://arxiv.org/abs/1806.07857

本文为笔者阅读该文章的笔记整理,有任何问题欢迎与我交流,邮箱是[email protected] / [email protected]

#解决奖励延迟的强化学习算法:RUDDER
强化学习

一、回顾马尔可夫决策过程(MDP):

在进行讨论之前我们有必要回顾MDP,MDP是由一个6元组(S,A,R,p,π,γ)唯一确定的, 是有限状态集合, 是表示t时刻状态的随机变量,A代表动作, 代表t时刻动作的随机变量,R代表奖励, 代表t时刻的奖励的随机变量,P是转移奖励,比如:

![title](leanote://file/getImage?fileId=5b3ea9a0ab644153560001bb)
表示t时刻处于s状态,并执行a动作,在t+1时刻达到 状态并得到奖励r的概率 策略是指在状态下的条件概率分布: $\pi(A_{t+1} = a'|S_{t+1}=s')$ 期望奖励为:
$r(s,a) = \sum_r rp(r|s,a)$
回报:
$ G_t = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1}$
在策略π下的动作-值函数为
$q^{\pi}(s,a) = E_{\pi}[G_t|S_t = s,A_t = a]$
我们学习的目的是为最大化$G_0$

二、MDP估计的偏差的方差分析:

1.奖励延迟使学习效果恶化

文章用了大量的篇幅说明了奖励延迟造成的问题,在此我们不多做介绍,我们只接受事实,奖励延迟会造成估计的方差变大。

![](leanote://file/getImage?fileId=5b41a94c2f4a7e160300000a)
# 三、回报分解以及奖励重新分配 ## 1.回报等价及状态丰富 为了解释这个问题,我们要引入两个概念:Return-Equivalent(回报等价)以及state-Enriched(状态丰富)
  • 回报等价的定义:如果两个MDP仅在 p ( r ~ ∣ s , a ) p(\tilde r|s,a) p(r~s,a) p ( r ∣ s , a ) p(r|s,a) p(rs,a)不同,但两者在相同策略下却有相同的期望回报 v ~ 0 π = v 0 π \tilde v_0^{\pi}=v_0^{\pi} v~0π=v0π,那么我们称这两个MDP过程是回报等价的。

  • 回报等价的性质:两个回报等价的过程具有相同的最优策略。

  • 状态丰富的定义:我们称一个MDP P ~ \tilde P P~相比于 P P P是状态丰富的,当且仅当 p p p同构于 p ~ \tilde p p~的子集,比较直观的描述是说:如果 p ~ \tilde p p~ P P P拥有相同的状态、动作、转移概率,以及奖励概率.但是 p ~ \tilde p p~的状态拥有更多的更多的信息。

  • 状态丰富的性质:状态丰富不改变最优策略以及 Q Q Q-values.

2.延迟奖励的MDP与即时奖励的MDP过程之间的等价

首先,考虑一个即时奖励的MDP过程,我们将他转换成一个延时奖励的MDP过程 p ~ \tilde p p~,这里有一种很显然的转换方式,定义转换后的过程

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值