强化学习简介

1.1 什么是强化学习

一、强化学习的核心思想

强化学习是让计算机从“无知”开始,通过不断尝试、从错误中学习,找到达成目标的规律与方法 。像AlphaGo下围棋、计算机玩Atari游戏,都是在尝试中更新行为准则,学会对应技能。

二、强化学习的学习依据

计算机靠“虚拟老师”指导,老师不教具体操作,而是给行为“打分” 。计算机记住高分(有利)、低分(不利)行为,下次重复高分行为、避免低分行为,以分数为导向学习,类似监督学习里的“正确标签”,但强化学习初始无数据和标签,需自行尝试获取。

三、强化学习与监督学习对比

强化学习与监督学习的对比

四、强化学习主要算法分类

(一)通过价值选行为

  • Q learning:用表格学习,评估行为价值来选行动。
  • Sarsa:与Q learning类似,学习过程有差异,依据当前状态、行为等逐步更新。
  • Deep Q Network(DQN):结合神经网络,处理复杂环境下的行为价值学习,能应对高维度状态空间。

(二)直接选行为

  • Policy Gradients:不评估行为价值,直接输出行为决策,通过梯度优化策略,让好行为获更多选择机会 。

(三)想象环境并从中学习

  • Model based RL:构建环境模型,在虚拟环境模拟尝试、学习,可减少实际环境尝试成本,提前规划行为 。

1.2 强化学习方法汇总

一、分类维度总览

强化学习算法多样,可从是否理解环境、决策依据、更新时机、学习模式 四个维度分类,帮助按需选方法。

二、按“是否理解环境”分类(Model-free & Model-based)

(一)核心区别
是否理解环境核心区别
(二)关键优势
Model-based 多了“虚拟环境”,能靠“想象力”预判接下来要发生的所有情况,根据想象中的情况选择最好的那种,并采取下一步的策略。像AlphaGo 借预判算路,减少真实试错成本;Model-free 更直接,依赖真实反馈迭代 。

三、按“决策依据”分类(基于概率 & 基于价值)

(一)核心区别
按“决策依据”分类核心区别
(二)融合方法
Actor-Critic 结合两者:Actor 凭概率输出动作,Critic 评估动作价值,加速学习(如优化 Policy Gradients) 。

四、按“更新时机”分类(回合更新 & 单步更新)

按更新实际分类

五、按“学习模式”分类(在线学习 & 离线学习)

按学习模式分类

1.3 为什么用强化学习?

一、基本定义

强化学习(Reinforcement Learning,简称RL),是机器学习家族分支。借与环境交互,从“陌生”到“熟练应对”,让程序 / 智能体自主学习优化策略 。

二、发展与应用

近年因技术突破 + 深度学习整合,应用拓展。比如:

  • 游戏领域:让计算机学玩游戏(如Atari游戏),自主探索得分策略
  • 经典案例:AlphaGo 凭 RL 挑战并战胜人类围棋高手,展现强大决策学习能力
三、学习特点

不依赖特定Python强化学习模块 ,因 RL 复杂、多样,暂无统一优质模块。但能用基础方法(如手动实现算法逻辑、利用基础数据结构)编写有效 RL 程序,适合初学者理解底层原理。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值