《Reinforcement Learning: An introduction》第一章

最新推荐文章于 2025-06-26 19:38:54 发布

翻译最新推荐文章于 2025-06-26 19:38:54 发布 · 1.1k 阅读

文章标签：

#强化学习 #reinforcement learning

reinforcement learning 专栏收录该内容

2 篇文章

订阅专栏

本文深入解析强化学习原理，探讨其与监督及非监督学习的区别，分析目标导向的智能体如何在未知环境中通过互动学习，以最大化奖励信号。涵盖探索与利用的平衡、策略、奖励信号等核心概念。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

介绍

1.1 强化学习（Reinforcement Learning）

强化学习的特征

与监督学习（supervised learning）的区别

与非监督学习（unsupervised learning）的区别

难点与挑战

1.2 强化学习的要素

总结

介绍

Learning from interaction is a foundational idea underlying nearly all theories of learning and intelligence.

可以将强化学习类比于我们自然的学习过程。想象一个新生的婴儿与外界互动的情景，没有老师专门教它，但它会四处看看、动动手脚，通过各种尝试来探索世界。再比如我们学驾驶或者与人对话，我们会根据当前动作所获得的反应来随时调整自己的行为。

1.1 强化学习（Reinforcement Learning）

强化学习就是在学习做什么、怎样把situations映射到actions上，从而使reward最大化。学习者不会被指定采取哪个action，而是需要通过不断的尝试来探索哪个action能获得最大reward。actions不仅会影响当前的reward，也会对下一个状态、接下来的rewards都产生影响。（当然，这视具体情况而定，不同场景中，action对后续的reward的影响深远程度是不同的。）具体公式表示为： $Q(s1)=r2+\gamma \cdot r3+\gamma ^{2}\cdot r4+\gamma ^{3}\cdot r5+...$ 。涉及参数：γ(Gama)，γ是对未来reward的衰减值。比如γ=0时，Q(s1)=r2，即表示只在乎当前的reward。

强化学习经典示意图
from lecture "Introduction to reinforcement learning" given by d.silver

一个learning agent需具有的特点：

一定程度地感知其所在环境的状态；（sensation）
实施对环境状态产生影响的actions；（action）
有目标或者与环境状态相关的目标。（goal）

强化学习的特征

与监督学习（supervised learning）的区别

监督学习

强化学习

从已经被正确标记的训练集中学习

agent必须能够在探索中获得的经验，并从中学习

根据正确标记好的action集合，从而推测、产生对应于新的（训练集中没有的）状态下应该采取的正确action

（要让训练集包含能代表所有状态下正确的action，是不实际的）

与非监督学习（unsupervised learning）的区别

非监督学习

强化学习

在未标记的数据集中寻找隐藏的关联结构

（find hidden structure）

目的是使reward最大化

（maximize a reward signal）

都不依赖于正确标记好的数据集

此外，强化学习还有一个关键特征是，它确切地、从整体上考虑以目标为导向的（goal-directed）agent与未知环境交互的问题。与之相比，一些方法只单独考虑某个子问题，而没有阐明其如何应用到更大的框架中。

难点与挑战

权衡Exploration（探索未知）和exploitation（利用已知）间的平衡（exploration-exploitation dilemma）

Agent既要利用（exploit）其已有的经验来获得reward，又要探索（explore）没试过的action，从而能在未来做出更好的选择。Agent必须尝试各种actions，并且逐渐趋向于表现好的action。在一个随机任务中，每个action都需尝试很多次后，才能得到对其期望reward的可靠估计。