用一个简单的例子来阐述强化学习的相关概念（二）

强化学习解析

最新推荐文章于 2024-09-17 14:19:07 发布

望有恒

最新推荐文章于 2024-09-17 14:19:07 发布

阅读量1.4k

点赞数

CC 4.0 BY-SA版权

分类专栏：强化学习文章标签：强化学习

本文链接：https://blog.csdn.net/shouchen1/article/details/122439079

强化学习专栏收录该内容

16 篇文章

订阅专栏

本文通过围棋实例，详细解析了强化学习的基本元素、主要元素及核心元素，并介绍了其两大特性：试错学习与延迟奖励，以及核心问题：探索与利用。

什么是强化学习？

强化学习是Agent玩家在与环境的互动当中，为了达成目标而进行了学习过程。这是强化学习的第1层结构，称之为基本元素，包括第一Agent玩家，第二Environment环境，第三个Goal目标。强化学习的第2层结构，称之为主要元素，包括：第一State状态，第二Action行动，第三Reword奖励。最后则是强化学习的第3层结构，称之为核心元素Policy策略以及Value价值。

以围棋为例，完整的梳理一下这些元素在强化学习过程中的含义，同时，我们将会了解到，强化学习与其他机器学习领域所不同的两个特点，以及一个核心问题。

那么，游戏开始。现在我们就从强化学习的角度来分析一场围棋。
首先，第1层结构Agent，现在就是我，环境在围棋中也就包括了这个棋牌以及我的对手；Goal目标，也就是赢得这局棋。

接下来第2层结构State状态在围棋中很简单，也就是棋盘上棋子的分布情况。那么，现在我们所处的状态是棋盘上没有落子的状态，我们不妨称之为State1。现在假如说我是执白先行，我作为一个Agent，也就是玩家，在当前这一状态下，需要做出某种行动，也就是Action。那么我首先在星位落子。这就是一个行动，我们不妨称之为Action1，在我采取了这个行动之后，我会得到一个即时的反馈，也就是Reward奖励。对于围棋一个好的强化学习模型奖励应该是0，除非达到赢棋的最终状态，所以说在这里，Reword1=0，这样就是一个完整的第2层结构。

State1是棋盘上没有棋子，Action1是我在星位落子，Reword1=0，玩家在一个状态中采取了一个行动，这个行动会得到一个奖励，同时，环境会对这个行动作出响应。比如我的对手落在小目，这就进入了下一个状态State2，一颗白棋在一个角的星位，一颗黑棋在另一个角的小目，接下来就是Action2，Reword2，再进入State3，如此下去，直到棋局结束，这就是第2层结构State，Action，Reword。

最后我们再来看第3层结构，Policy策略和Value价值。在上一期视频中我们说了，价值函数有两种，一种是状态价值函数，State Value，另一种是状态行动价值函数，State-Action Value，我们这里就采用更直接一点的状态行动价值函数。让我们回到最开始的状态，State1，作为Agent玩家，我需要采取行动。那么，在现在的状态下，我应该在哪里落子呢？这就是一个策略问题，在一个状态下采取什么行动，这就是Policy，而策略是由价值决定的。比如说在State1，我可以采取的行动有361个，这361种行动都有对应的价值。在一个状态下可能的行动所对应的价值，这就是状态行动价值。那么，这个价值的具体数值是什么呢？我们也说过，价值是将来所能得到的所有奖励之和的期望值。在围棋中，如果我们规定赢棋的奖励为1，输棋或者和棋的奖励为0。那么价值实际上就是赢棋的概率，因此，我的策略是选择价值最大，也就是赢棋的概率最大的行动，这就是第3层结构Policy策略和Value价值。

这样，我们就通过围棋这个例子梳理了强化学习的组成元素，分别的含义，以及它们之间的关系。那么，剩下的问题其实只有一个了，如何去学习一个好的价值函数以及好的策略，这也就是整个强化学习领域最重要的核心内容。

强化学习的两个特点，和一个核心问题。

第一个特点，叫做Trial and Error也就是试错，强化学习是一种试错学习，也就是在不断的尝试中去学习，现在我们学习围棋，拿着一本棋谱书。这本棋谱告诉我们，在什么情况下应该怎么落子？这是一种监督学习，而棋谱告诉我们的实际上就是一种策略。这个策略是怎么来的，就是围棋的先辈们通过不断的尝试，不断的对弈总结出来的，这就是一种强化学习。在不断下棋的过程中，去学习哪一步棋的价值最大？在不同的情况下，应该怎么落子？阿尔法狗经历的也是同样的过程，这是强化学习的一大特点Trial and Error，强化学习是一种试错学习。

第二个特点，叫做Delayed Reward，也就是延迟奖励。这个特点在围棋中就非常的明显。玩家采取的行动得到的奖励，基本上都是零，直到最后获得胜利。也就是说，行动没有对应及时的奖励，但是，每一步棋对于最后的胜利都是有贡献的，这就导致一个行动可能没有奖励，但是他一定有价值。
不过一个行动所具有的价值，只有在得到了奖励之后才能真正得到体现。而这个奖励可能发生在一段时间之后，在玩家采取了很多其他的行动之后，这就称为Delayed Reward，延迟奖励。在实际得到奖励之后，我们知道，以前所采取的行动都对这个奖励有所贡献。

那么，如何去学习过去的行动所具有的价值，这就涉及到一个Credit Assignment以及Backpropagation的问题，在具体的强化学习算法中，我们就会看到，在这里呢，我只提到一点，那就是围棋学习中也有同样的过程，我们称之为复盘，一局棋结束之后，一方赢，一方输。那么，到底哪一步棋起到了关键的作用，哪一步的影响不是那么大？这是通过复盘研究来学习的。实际上这就是学习每一个行动所具有的价值的过程。那么这就是强化学习的两个主要特点，第一个Trial and Error，试错。第二个是Delayed Reward，延迟奖励，在围棋中他们都有很好的体现。

那么，最后我们再来看强化学习的一个核心问题。
这个问题称为Exploration vs.Exploitation ，**Exploration是开发未知领域，而Exploitation是利用已知状态。**Exploitation也就是“利用”，利用的是强化学习所学习到的价值函数，比如我们有了一个状态行动价值函数，想当然的，应该采取价值最高的行动。这就是Exploitation，但是呢，我们学习到的价值函数不一定是最优的价值函数，有一些看起来价值不是很高的行动，有可能真实的价值是最高的，所以呢，我们不仅仅需要去利用已经学到的价值函数，还应该去尝试不同的行动，从而优化我们的价值函数。这就是探索Exploration和Exploitation之间的权衡，是强化学习中的一个核心问题。

围棋中就有一个很好的例子，那就是阿尔法狗的出现，给围棋界带来了很多前所未有的新定式，甚至是所有操作。举一个最简单的例子，白旗先行，走星位，黑棋小飞挂角，白棋怎么应？通过4000多年的经验总结呢，定式书通常会告诉你，小飞，大飞，单关，压上或者夹一个都是常见的走法，但是很少会去尖顶。这就是说，人类通过4000多年的强化学习，认为在这种状态下，尖顶这一行动所具有的价值不大，但是我们现在发现阿法狗常常喜欢尖顶守角。这就是说，阿尔法狗通过他的强化学习，认为尖顶这一行动具有的价值是很高的，为什么我们以前没有发现这一步的价值呢？那就是因为我们利用了已有的价值函数很少去尖顶也就是缺乏Exploration，所以说Exploration和Exploitation不是一个Trivial的问题，即便是通过4000多年的探索，仍然会有没有探索到的地方。

以上从强化学习的角度分析了围棋这个例子，完整地梳理了强化学习的组成元素，分别的含义和相互关系。接着介绍了强化学习的两个特点，Trial and Error试错以及Delayed Reward延迟奖励。最后，介绍了强化学习的一个核心问题Exploration vs.Exploitation，到此，可以说对于强化学习已经有了一个基本的了解。