
强化学习入门
文章平均质量分 80
chenzeyu940717
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
强化学习-马尔可夫决策过程
目录2.1 基本概念2.2 随机性的来源2.3 回报与折扣回报2.3.1 回报2.3.2 折扣回报2.3.3 回报中的随机性2.3.4 有限期 MDP 和无限期 MDP2.4 价值函数2.4.1 动作价值函数2.4.2 最优动作价值函数2.4.3 状态价值函数2.5 实验环境2.1 基本概念强化学习主要就是基本概念比较多,容易混淆,不容易记住,主要说一下一些基本的概念。强化学习可以看做成一个马尔可夫决策过程(MDP),一个MDP通常由状态空间、动作原创 2021-12-30 16:48:30 · 957 阅读 · 0 评论 -
强化学习-蒙特卡洛模拟
强化学习入门,跟着B站主播王树森逐步探索原创 2021-12-30 11:30:53 · 944 阅读 · 0 评论