
强化学习 Reinforcement Learning
文章平均质量分 69
强化学习 Reinforcement Learning
张怼怼√
懒就是懒吧!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
四、强化学习-PG算法代码
import gymimport torchfrom torch import nnfrom torch.distributions import Categoricalclass Agent(nn.Module): def __init__(self): super(Agent, self).__init__() self.net = nn.Sequential( nn.Linear(4, 32), nn.R原创 2021-09-26 15:47:26 · 937 阅读 · 0 评论 -
三、表格型方法
文章目录Q-table衰减因子计算策略的价值蒙特卡洛方法时间差分方法Sarsa算法 On-policy TD ControlQ-learning Off-policy TD Control总结Q-table在多次尝试和熊打交道之后,人类就可以对熊的不同的状态去做出判断,我们可以用状态动作价值来表达说在某个状态下,为什么动作 1 会比动作 2 好,因为动作 1 的价值比动作2 要高,这个价值就叫 Q 函数。Q 表格是一张已经训练好的表格的话,那这一张表格就像是一本生活手册。我们就知道在熊发怒原创 2021-07-14 21:06:14 · 328 阅读 · 0 评论 -
一、 强化学习及MountainCar-v0 Example
一、 强化学习及MountainCar-v0 Example强化学习讨论的问题是一个智能体 (agent) 怎么在一个复杂不确定的环境 (environment) 里面去极大化它能获得的奖励。下面是它的示意图:示意图由两部分组成:agent 和 environment。在强化学习过程中,agent 跟 environment 一直在交互。Agent 在环境里面获取到状态,agent 会利用这个状态输出一个动作 (action),一个决策。然后这个决策会放到环境之中去,环境会根据 agent 采取的决原创 2021-05-31 16:30:46 · 2811 阅读 · 2 评论