
《动手学强化学习》学习总结及扩展
文章平均质量分 94
对《动手学强化学习》一书的学习总结及扩展。
clorisqqq
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
《动手学强化学习》总结
从Q-learning 到DPPO原创 2024-11-13 16:00:06 · 1204 阅读 · 0 评论 -
《动手学强化学习》内容精炼及扩展-第二章
多臂老虎机:简化版的强化学习问题,不存在状态信息,只有动作和奖励。问题:有一个拥有KKK根拉杆的老虎机,拉动每一根拉杆都对应一个关于奖励的概率分布RRR。我们每次拉动其中一根拉杆,就可以从该拉杆对应的奖励概率分布中获得一个奖励rrr。我们在各根拉杆的奖励概率分布未知的情况下,从头开始尝试,目标是在操作TTT次拉杆后获得尽可能高的累积奖励。由于奖励的概率分布是未知的,因此我们需要在“探索拉杆的获奖概率”和“根据经验选择获奖最多的拉杆”中进行权衡。原创 2024-10-14 20:42:06 · 882 阅读 · 0 评论 -
《动手学强化学习》内容精炼及扩展-第一章
对《动手学强化学习》第一章的总结及扩展原创 2024-10-11 20:49:27 · 814 阅读 · 0 评论