看了视频后,发现对RL的理解浮于表面,很多问题想不明白,所以停下来整理下公式,加深对理论的理解程度再继续推进。
第三章
Return
在一次实验中,时间步t之后的奖励记做 Rt+1, Rt+2, Rt+3, . . .,
片段奖励Gt:= Rt+1+ Rt+2+ Rt+3+· · ·+ RT, 式子(3.1):
这个地方最后一个状态是否一定是终结状态呢?这个我现在也不知道,但是当面向具体的问题时,我想这不是一个问题。总之此处定义了一个片段(epsode)的奖励值。
非终结状态:S
终结状态: S+
加上折扣因子后是:
MDP
满足马尔科夫属性的强化学习任务叫做马尔科夫决策过程markov decision process:。特别的,当状态空间和行为空间有限时,这被叫做finite markov process process,有限MDP是重要的强化学习理论,理解了finite MDP就可以解决90%的RL问题。
在Finite MDP任务中,基于当前的S,采取action a,下一个时间步的states s’和及时奖励记做式子3.6:
基于3.