强化学习简介

最新推荐文章于 2025-07-02 10:43:13 发布

烨川南

最新推荐文章于 2025-07-02 10:43:13 发布

阅读量677

点赞数 15

CC 4.0 BY-SA版权

分类专栏：强化学习文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_56423815/article/details/148791235

强化学习专栏收录该内容

13 篇文章

订阅专栏

1.1 什么是强化学习

一、强化学习的核心思想

强化学习是让计算机从“无知”开始，通过不断尝试、从错误中学习，找到达成目标的规律与方法。像AlphaGo下围棋、计算机玩Atari游戏，都是在尝试中更新行为准则，学会对应技能。

二、强化学习的学习依据

计算机靠“虚拟老师”指导，老师不教具体操作，而是给行为“打分” 。计算机记住高分（有利）、低分（不利）行为，下次重复高分行为、避免低分行为，以分数为导向学习，类似监督学习里的“正确标签”，但强化学习初始无数据和标签，需自行尝试获取。

三、强化学习与监督学习对比

强化学习与监督学习的对比

四、强化学习主要算法分类

（一）通过价值选行为

Q learning：用表格学习，评估行为价值来选行动。
Sarsa：与Q learning类似，学习过程有差异，依据当前状态、行为等逐步更新。
Deep Q Network（DQN）：结合神经网络，处理复杂环境下的行为价值学习，能应对高维度状态空间。

（二）直接选行为

Policy Gradients：不评估行为价值，直接输出行为决策，通过梯度优化策略，让好行为获更多选择机会。

（三）想象环境并从中学习

Model based RL：构建环境模型，在虚拟环境模拟尝试、学习，可减少实际环境尝试成本，提前规划行为。

1.2 强化学习方法汇总

一、分类维度总览

强化学习算法多样，可从是否理解环境、决策依据、更新时机、学习模式四个维度分类，帮助按需选方法。

二、按“是否理解环境”分类（Model-free & Model-based）

（一）核心区别
是否理解环境核心区别
（二）关键优势
Model-based 多了“虚拟环境”，能靠“想象力”预判接下来要发生的所有情况，根据想象中的情况选择最好的那种，并采取下一步的策略。像AlphaGo 借预判算路，减少真实试错成本；Model-free 更直接，依赖真实反馈迭代。

三、按“决策依据”分类（基于概率 & 基于价值）

（一）核心区别
按“决策依据”分类核心区别
（二）融合方法
Actor-Critic 结合两者：Actor 凭概率输出动作，Critic 评估动作价值，加速学习（如优化 Policy Gradients）。

四、按“更新时机”分类（回合更新 & 单步更新）

按更新实际分类

五、按“学习模式”分类（在线学习 & 离线学习）

按学习模式分类

1.3 为什么用强化学习？

一、基本定义

强化学习（Reinforcement Learning，简称RL），是机器学习家族分支。借与环境交互，从“陌生”到“熟练应对”，让程序 / 智能体自主学习优化策略。

二、发展与应用

近年因技术突破 + 深度学习整合，应用拓展。比如：

游戏领域：让计算机学玩游戏（如Atari游戏），自主探索得分策略
经典案例：AlphaGo 凭 RL 挑战并战胜人类围棋高手，展现强大决策学习能力

三、学习特点

不依赖特定Python强化学习模块，因 RL 复杂、多样，暂无统一优质模块。但能用基础方法（如手动实现算法逻辑、利用基础数据结构）编写有效 RL 程序，适合初学者理解底层原理。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。