
强化学习
文章平均质量分 91
学海一叶
机器学习、深度学习、GIS、遥感
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
强化学习-马尔可夫模型
前文提到了强化学习源自马尔可夫决策过程,本文从马尔可夫概念入手,讲解和马尔可夫有关的模型和概念。在马尔科夫决策过程中,我们有一个智能体,它在一个马尔科夫过程中进行决策,每次决策都会导致状态的转移和获得即时奖励。智能体的目标是通过选择动作来最大化未来奖励的期望值。通常马尔科夫决策过程是个五元组:SAPRγSAPRγS 表示状态集合,代表智能体可能处于的所有状态。A 表示动作集合,代表智能体可以采取的所有动作。原创 2024-03-12 15:53:35 · 7181 阅读 · 0 评论 -
强化学习-入门篇
以上就是今天要讲的内容,本文简单介绍了强化学习的历史、基本思想,下文讲解马尔可夫模型。原创 2024-03-06 10:19:54 · 948 阅读 · 0 评论