Dueling DQN 值函数和优势函数

Dueling DQN解析

最新推荐文章于 2025-07-22 15:43:53 发布

nanfei_opt

最新推荐文章于 2025-07-22 15:43:53 发布

阅读量2.5k

点赞数 1

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/nanfei_opt/article/details/108623131

本文深入探讨了Dueling DQN的原理与优势，通过将Q网络拆分为V值和A值两部分，使得模型能够更有效地评估状态和动作的价值。与传统DQN相比，Dueling DQN能更好地处理在某些状态下动作选择对最终奖励影响较小的情况。

定义advantage,动作的优势程度函数
将Q网络分成两个通道，一个输出V，一个输出A，最后再合起来得到Q
Q(s,a) = 状态的所有动作Q期望 + action-value的优势程度(思考优势程度的定义)
Q(s,a) = A(s,a) + V(s)
1.值函数V(s)
定义: 状态s下所有动作价值的期望(矩阵size=1)
2.优势函数A(s,a)
避免两个支路直接学习到V(s)=0或者A(s,a)=0的情况===>

优势函数(Advantage Function)

定义优势函数

注意有

值函数V 评估状态 S的好坏，动作值a评估在状态S下采取动作a的好坏，而优势函数A评估的则是在状态S采取各动作相对于平均回报的好坏，也就是采取这个动作的优势。

Dueling DQN有什么优点

Dueling DQN可以学到每个状态的V值，而不需要考虑在该状态采取什么样的动作。我们可以想想普通的DQN，它只能学到在某个状态下采取某个动作的Q值。当在某些状态下采取什么动作对最终回报没有什么影响时，Dueling DQN这种结构就非常有优势。

为了说明这一点，我们先看下面这张图

图中显示我们的V值网络尤其关注远处地平线，也就是新的小车出现的地方，也很关注当前所获得的分数。相比之下，优势函数网络在不需要采取什么动作时，对图像输入并没有什么重点关注的地方(图右上角)，而当有小车离得很近时，才会对“警觉”起来(图右下角)。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。