Policy Gradients

最新推荐文章于 2025-07-01 19:19:43 发布

weixin_30691871

最新推荐文章于 2025-07-01 19:19:43 发布

阅读量152

点赞数

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/LincHpins/p/10545122.html

博客记录了Policy Gradients相关内容。该算法不估计局面价值，而是预测动作概率。其更新函数为\(\theta_{t+1}=\theta_t + \alpha \cfrac{\partial J}{\partial \theta}\)，\(J(\theta)\)受行为选择和到各状态概率影响。还提到梯度计算可通过蒙特卡洛估计或Q - learning、DQN迭代。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这篇博客只是为了自己记录，思路比较跳跃。

Policy Gradients

不估计局面的价值，转而预测选取每个动作的概率。因为某些游戏中我们可能会需要在相同的状态下做出随机行为，比如说某些资源有限的游戏，我们不可能一直在某一个地方一直获取资源。

更新函数是\(\theta_{t+1}=\theta_t + \alpha \cfrac{\partial J}{\partial \theta}\)，其中\(J(\theta)\)是对当前参数产生的策略的评价，越高越好。

\(J(\theta)\)中，\(\theta\)的影响来自于两方面，一是在特定状态下的行为选择，二是这个策略到每个状态的概率。行为选择的偏导比较好考虑，然而行为造成的“某些高价值的状态没有到达”这件事情的偏导就没有那么形象了。

我们把策略对可能到达状态的影响浓缩在了一个\(\mu (x)\)里，表示在该策略下到达\(x\)的概率。

最后关于这个梯度的计算，我自己有一些想法：

一是通过蒙特卡洛估计，即使状态量巨大或者无限，状态的密度分布依然会把我们带到密度大的状态，我们的\(q\)值也是策略下的\(q\)值，没有统计到的密度小的状态价值再高也会被密度冲淡，影响不大。
二是通过Q-learning or DQN来估计\(q\)值，两个算法相互迭代。

转载于:https://www.cnblogs.com/LincHpins/p/10545122.html

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。