《reinforcement learning:an introduction》第六章《Temporal-Difference Learning》总结

由于组里新同学进来,需要带着他入门RL,选择从silver的课程开始。

对于我自己,增加一个仔细阅读《reinforcement learning:an introduction》的要求。

因为之前读的不太认真,这一次希望可以认真一点,将对应的知识点也做一个简单总结。




注意:本章考虑model-free的prediction和control,仍然有两种方法,policy iteration和value iteration(evaluation阶段使用model-free方法,improvement阶段采用greedy方法)。这一节主要讲基于TD-Learning的value iteration方法

在model-free的情况下,直接估算Q(S,A)更常见,因为即便估算出来了V(S),没有model还是不知道如何选择action(如何生成policy)。




MC思想:sample one timestep,然后用 [即时reward+后续状态的bootstrap] 来估算expected return。




MC method: V(St+1) = V(St) +α[Gt-V(St)]  ==》use  one sample Gt estimate Expectation

TD(0) method:(St+1) = (St) + α[Rt+1 + γV(St+1) V(St)] ==》useone sample Rt+1 + γV(St+1) estimate Expectation,且V(St+1)也是estimation。

TD-target = Rt+1 + γV(St+1) ;TD-error = Rt+1 + γV(St+1) V(St);MC error Gt - V(St)可以转换为TD-error的和:

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值