关键词:
optimal control 最优控制
Law of Effect 有效法则
Dynamic programming 动态规划
Bellman equation 贝尔曼方程
文章目录
一、说明
强化学习从20世纪50年代就开始,最初只有反复学习和最优控制两条线索。随着研究的深入,逐步演化出各式各样的方法。本篇将叙述这些方法和其演进路线。
二、强化学习的历史线索
2.1 两个历史线索演进
强化学习的历史有两条主要线索,它们既悠久又丰富,在现代强化学习中交织在一起之前,它们一直被独立地研究。一条线索涉及反复试验的学习,始于动物学习心理学。这条线索贯穿了人工智能领域的一些早期工作,并导致了 20 世纪 80 年代初强化学习的复兴。另一条线索涉及最优控制问题及其使用价值函数和动态规划的解决方案。在大多数情况下,这条线索与学习无关。
虽然这两条线索在很大程度上是独立的,但也有例外,围绕着第三条不太明显的线索,它涉及时间差分方法,例如本章中井字游戏示例中使用的方法。这三条线索在 20 世纪 80 年代后期汇聚在一起,形成了我们在本书中介绍的现代强化学习领域。
图1 强化学习研究方法的演进
2.2 最优控制和贝尔曼方程
专注于试错学习的线程是我们最熟悉的,也是在这段简短的历史中我们讨论最多的。不过,在此之前,我们先简单讨论一下最优控制线程。
“最优控制”一词于20世纪50年代末开始使用,用于描述设计控制器以最小化动态系统随时间变化的行为指标的问题。解决该问题的方法之一是由理查德·贝尔曼(Richard Bellman)等人在20世纪50年代中期通过扩展19世纪的汉密尔顿和雅可比理论而发展起来的。该方法利用动态系统状态和值函数(或“最优回报函数”)的概念来定义一个函数方程,现在通常称为贝尔曼方程。通过求解该方程来解决最优控制问题的方法被称为动态规划(Bellman,1957a)。贝尔曼(1957b)还引入了最优控制问题的离散随机版本,即马尔可夫决策过程(MDP),而罗恩·霍华德(Ron Howard)(1960)则设计了MDP的策略迭代方法。所有这些都是现代强化学习理论和算法的基本要素。
动态规划被广泛认为是解决一般随机最优控制问题的唯一可行方法。它受到贝尔曼所谓的“维数灾难”的影响,这意味着其计算需求会随着状态变量数量的增加而呈指数增长,但它仍然比任何其他通用方法都更高效、适用范围更广。自 20 世纪 50 年代末以来,动态规划得到了广泛的发展,包括对部分可观马尔可夫决策过程 (MDP) 的扩展(Lovejoy,1991 年综述)、众多应用(White,1985、1988、1993 年综述)、近似方法(Rust,1996 年综述)以及异步方法(Bertsekas,1982、1983 年)。目前已有许多优秀的动态规划现代处理方法(例如 Bertsekas,1995 年;Puterman,1994 年;Ross,1983 年;以及 Whittle,1982、1983 年)。 Bryson (1996) 提供了有关最优控制的权威历史。
三、学习方法综述
3.1 最优控制和强化学习
我们认为最优控制中的所有工作在某种意义上也是强化学习中的工作。
我们将强化学习定义为解决强化学习问题的任何有效方法,现在很清楚,这些问题与最优控制问题密切相关,特别是那些以MDP形式表达的问题。因此