1.1 什么是强化学习
一、强化学习的核心思想
强化学习是让计算机从“无知”开始,通过不断尝试、从错误中学习,找到达成目标的规律与方法 。像AlphaGo下围棋、计算机玩Atari游戏,都是在尝试中更新行为准则,学会对应技能。
二、强化学习的学习依据
计算机靠“虚拟老师”指导,老师不教具体操作,而是给行为“打分” 。计算机记住高分(有利)、低分(不利)行为,下次重复高分行为、避免低分行为,以分数为导向学习,类似监督学习里的“正确标签”,但强化学习初始无数据和标签,需自行尝试获取。
三、强化学习与监督学习对比
四、强化学习主要算法分类
(一)通过价值选行为
- Q learning:用表格学习,评估行为价值来选行动。
- Sarsa:与Q learning类似,学习过程有差异,依据当前状态、行为等逐步更新。
- Deep Q Network(DQN):结合神经网络,处理复杂环境下的行为价值学习,能应对高维度状态空间。
(二)直接选行为
- Policy Gradients:不评估行为价值,直接输出行为决策,通过梯度优化策略,让好行为获更多选择机会 。
(三)想象环境并从中学习
- Model based RL:构建环境模型,在虚拟环境模拟尝试、学习,可减少实际环境尝试成本,提前规划行为 。
1.2 强化学习方法汇总
一、分类维度总览
强化学习算法多样,可从是否理解环境、决策依据、更新时机、学习模式 四个维度分类,帮助按需选方法。
二、按“是否理解环境”分类(Model-free & Model-based)
(一)核心区别
(二)关键优势
Model-based 多了“虚拟环境”,能靠“想象力”预判接下来要发生的所有情况,根据想象中的情况选择最好的那种,并采取下一步的策略。像AlphaGo 借预判算路,减少真实试错成本;Model-free 更直接,依赖真实反馈迭代 。
三、按“决策依据”分类(基于概率 & 基于价值)
(一)核心区别
(二)融合方法
Actor-Critic 结合两者:Actor 凭概率输出动作,Critic 评估动作价值,加速学习(如优化 Policy Gradients) 。
四、按“更新时机”分类(回合更新 & 单步更新)
五、按“学习模式”分类(在线学习 & 离线学习)
1.3 为什么用强化学习?
一、基本定义
强化学习(Reinforcement Learning,简称RL),是机器学习家族分支。借与环境交互,从“陌生”到“熟练应对”,让程序 / 智能体自主学习优化策略 。
二、发展与应用
近年因技术突破 + 深度学习整合,应用拓展。比如:
- 游戏领域:让计算机学玩游戏(如Atari游戏),自主探索得分策略
- 经典案例:AlphaGo 凭 RL 挑战并战胜人类围棋高手,展现强大决策学习能力
三、学习特点
不依赖特定Python强化学习模块 ,因 RL 复杂、多样,暂无统一优质模块。但能用基础方法(如手动实现算法逻辑、利用基础数据结构)编写有效 RL 程序,适合初学者理解底层原理。