【强化学习公式理解】

本文深入解析强化学习中的关键概念,包括Return的定义,探讨片段奖励是否必须在终结状态结束,解释马尔科夫决策过程(MDP)的重要性,特别是在有限MDP中的应用。此外,文章还介绍了Value Function的概念,特别是State和Action Value Function,并讨论了它们与Policy的关系,以及如何通过蒙特卡洛方法和参数估计来计算这些值。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

看了视频后,发现对RL的理解浮于表面,很多问题想不明白,所以停下来整理下公式,加深对理论的理解程度再继续推进。

第三章

Return

在一次实验中,时间步t之后的奖励记做 Rt+1, Rt+2, Rt+3, . . .,

片段奖励Gt:= Rt+1+ Rt+2+ Rt+3+· · ·+ RT, 式子(3.1):
这个地方最后一个状态是否一定是终结状态呢?这个我现在也不知道,但是当面向具体的问题时,我想这不是一个问题。总之此处定义了一个片段(epsode)的奖励值。

非终结状态:S
终结状态: S+

加上折扣因子后是:
在这里插入图片描述

MDP

满足马尔科夫属性的强化学习任务叫做马尔科夫决策过程markov decision process:。特别的,当状态空间和行为空间有限时,这被叫做finite markov process process,有限MDP是重要的强化学习理论,理解了finite MDP就可以解决90%的RL问题。

在Finite MDP任务中,基于当前的S,采取action a,下一个时间步的states s’和及时奖励记做式子3.6:
在这里插入图片描述
基于3.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值