RUDDER：回报分解解决强化学习得奖励延迟问题

最新推荐文章于 2025-07-16 19:32:03 发布

秋曾万

最新推荐文章于 2025-07-16 19:32:03 发布

阅读量5.9k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： deep reinforce learning 文章标签： deep reinforce learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41679411/article/details/80942002

论文链接：https://arxiv.org/abs/1806.07857

本文为笔者阅读该文章的笔记整理，有任何问题欢迎与我交流，邮箱是[email protected] / [email protected]

#解决奖励延迟的强化学习算法：RUDDER
强化学习

一、回顾马尔可夫决策过程（MDP）：

在进行讨论之前我们有必要回顾MDP，MDP是由一个6元组（S,A,R,p,π,γ）唯一确定的，是有限状态集合，是表示t时刻状态的随机变量，A代表动作，代表t时刻动作的随机变量，R代表奖励，代表t时刻的奖励的随机变量，P是转移奖励，比如：

![title](leanote://file/getImage?fileId=5b3ea9a0ab644153560001bb) 表示t时刻处于s状态，并执行a动作，在t+1时刻达到状态并得到奖励r的概率策略是指在状态下的条件概率分布： $\pi(A_{t+1} = a'|S_{t+1}=s')$ 期望奖励为: $r(s,a) = \sum_r rp(r|s,a)$ 回报： $ G_t = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1}$ 在策略π下的动作-值函数为 $q^{\pi}(s,a) = E_{\pi}[G_t|S_t = s,A_t = a]$ 我们学习的目的是为最大化$G_0$

二、MDP估计的偏差的方差分析：

1.奖励延迟使学习效果恶化

文章用了大量的篇幅说明了奖励延迟造成的问题，在此我们不多做介绍，我们只接受事实，奖励延迟会造成估计的方差变大。

![](leanote://file/getImage?fileId=5b41a94c2f4a7e160300000a) # 三、回报分解以及奖励重新分配 ## 1.回报等价及状态丰富为了解释这个问题，我们要引入两个概念：Return-Equivalent（回报等价）以及state-Enriched(状态丰富)

回报等价的定义：如果两个MDP仅在 $p(\tilde r|s,a)$ 与 $p (r ∣ s, a)$ 不同，但两者在相同策略下却有相同的期望回报 $\tilde v_0^{\pi}=v_0^{\pi}$ ,那么我们称这两个MDP过程是回报等价的。
回报等价的性质：两个回报等价的过程具有相同的最优策略。
状态丰富的定义：我们称一个MDP $\tilde P$ 相比于 $P$ 是状态丰富的，当且仅当 $p$ 同构于 $\tilde p$ 的子集,比较直观的描述是说：如果 $\tilde p$ 与 $P$ 拥有相同的状态、动作、转移概率，以及奖励概率.但是 $\tilde p$ 的状态拥有更多的更多的信息。
状态丰富的性质：状态丰富不改变最优策略以及 $Q$ -values.

2.延迟奖励的MDP与即时奖励的MDP过程之间的等价

首先，考虑一个即时奖励的MDP过程，我们将他转换成一个延时奖励的MDP过程 $\tilde p$ ，这里有一种很显然的转换方式，定义转换后的过程

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。