《reinforcement learning:an introduction》第七章《Multi-step Bootstrapping》总结

本文总结了《reinforcement learning:an introduction》第七章内容,聚焦n-step TD预测、SARSA和离策略学习。n-step返回值在更新过程中减少误差,n-step SARSA通过n次备份提升Q-table更新效率。离策略学习虽然引入高方差,但eligibility traces是重点。介绍了forward-和backward-view TD(λ)及其与MC方法的关系。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


由于组里新同学进来,需要带着他入门RL,选择从silver的课程开始。

对于我自己,增加一个仔细阅读《reinforcement learning:an introduction》的要求。

因为之前读的不太认真,这一次希望可以认真一点,将对应的知识点也做一个简单总结。




7.1 n-step TD Prediction

The methods that use n-step backups are still TD methods because theystill change an earlier estimate based on how it differs from a later estimate.

n-step return:


If t +n T(if the n-step return extends to or beyond termination), then a

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值