基于Pytorch的强化学习(DQN)之 Dueling Network

最新推荐文章于 2025-06-24 15:45:50 发布

ZDDWLIG

最新推荐文章于 2025-06-24 15:45:50 发布

阅读量1.2k

点赞数 7

CC 4.0 BY-SA版权

分类专栏：深度学习文章标签：深度学习

本文链接：https://blog.csdn.net/ZDDWLIG/article/details/123883394

深度学习专栏收录该内容

23 篇文章

订阅专栏

本文探讨了Dueling Network在DQN中的应用，通过数学推导，提出优势函数的概念，并详细解析了优势网络和状态网络的结构。讲解了如何利用这两个网络来近似最优价值函数和状态函数，以及为何选择这种结构以提高稳定性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 引言

我们之前学习了许多DQN的优化技巧，现在我们再来看看一种有趣的DQN的优化:Dueling network

2. 数学推导

2.1 最优价值函数

我们之前已经学过了最优价值函数 $Q^*(s,a)=\underset{\pi}{max}Q_{\pi}(s,a)$ ，这里的 $Q_{\pi}(s,a)$ 是动作价值函数，最优指的是对策略 $\pi$ 求最优。

2.2 最优状态函数

类比于最优价值函数，我们给出最优状态函数的定义，我们对状态函数 $V_{\pi}(s)=\underset{a}{max}Q_{\pi}(s,a)$ 也关于 $\pi$ 求最优便得到 $V^*(s)=\underset{\pi}{max}V_{\pi}(s)$ ，它可以衡量当前局势的好坏。

2.3 优势函数

我们定义优势函数 $A^*(s,a)=Q^*(s,a)-V^*(s)$ ，下面给出两个引理及其证明

$V^*(s)=\underset{a}{max}Q^*(s,a)$ $Proof:\underset{a}{max}Q^*(s,a)=\underset{a}{max}\underset{\pi}{max}Q_{\pi}(s,a)=\underset{\pi}{max}\underset{a}{max}Q_{\pi}(s,a)=\underset{\pi}{max}V_{\pi}(s)=V^*(s)$
$\underset{a}{max}A^*(s,a)=0$ $Proof:\underset{a}{max}A^*(s,a)=\underset{a}{max}Q^*(s,a)-\underset{a}{max}V^*(s)=V^*(s)-V^*(s)=0$

通过移项和添项我们得到： $Q^*(s,a)=A^*(s,a)+V^*(s)-\underset{a}{max}A^*(s,a)$

这给我们提供了一种新的DQN的构建方式，下面具体介绍用这个基于这个公式的神经网络Dueling network的具体结构。

3. 网络结构

3.1 优势网络

我们用网络 $A^*(s,a;w^A)$ 来近似 $A^*(s,a)$ ，它输入当前状态，输出一个动作得分向量。注意优势网络输出的是一个向量

3.2 状态网络

我们用网络 $V^*(s;w^V)$ 来近似 $V^*(s)$ ，它输入当前状态，输出一个对当前局势的打分。注意状态网络输出的是一个实数而非向量。

3.3 新的DQN

我们用 $Q^*(s,a;w)=A^*(s,a;w^A)+V^*(s;w^V)-\underset{a}{max}A^*(s,a;w^A)\qquad(w=(w^A,w^V))$

来近似 $Q^*(s,a)=A^*(s,a)+V^*(s)-\underset{a}{max}A^*(s,a)$ ，它输入的是当前状态，输出由三部分组成：一个向量、一个实数、向量中最大得到分量(实数) 。输出也是一个向量，其中向量加上实数就是将向量的每一个分量都加上这个实数。

现在出现一个问题：我们为什么要在网络中加入 $\underset{a}{max}A^*(s,a;w^A)$ 这一项呢？我们先考虑 $Q^*(s,a;w)=A^*(s,a;w^A)+V^*(s;w^V)$ ，很容易知道 $Q=A+V$ 这个分解不唯一，这说明 $A$ 和 $V$ 这两个网络会不稳定，它们只需要分别加减某个常数即可保持 $Q$ 不发生改变，我们希望得到的两个网络是唯一的，于是我们引入 $\underset{a}{max}A^*(s,a;w^A)$ ,网络 $A$ 的变化也会使它变化，比如说 $A$ 变大10，那么 $A$ 中最大分量也会变大10，两者相减这个变化就被抵消了，那么 $V$ 也就不发生改变了，保证了两个网络的稳定性。但是在实际应用中实践证明使用 $\underset{a}{mean}A^*(s,a;w^A)$ 而不是 $\underset{a}{max}A^*(s,a;w^A)$ 效果会更好。