强化学习基础概念

https://zhuanlan.zhihu.com/p/68821440?from_voters_page=true

奖励(Reward-R):Agent做出一个动作时的及时收益
回报(Return-G):未来奖励的总和

一、核心函数框架

  1. 环境交互函数
| 函数名       | 符号       | 描述               | 输入参数          | 输出结果       |
|--------------|------------|--------------------|-------------------|----------------|
| 状态转移概率 | P(s'\|s,a) | 环境状态转移概率   | 当前状态s, 动作a  | 新状态s'       |
| 奖励函数     | R(s,a,s')  | 即时奖励计算       | 状态s, 动作a, 新状态s' | 奖励值r       |
| 折扣因子     | γ          | 未来奖励衰减系数   | 无                | 取值范围[0,1]  |
  1. 智能体函数
| 函数名称       | 符号表示 | 功能描述             | 输入参数       | 输出结果               |
|---------------|----------|----------------------|---------------|-----------------------|
| 策略函数       | π(a\|s)  | 动作选择概率分布     | 状态s          | 动作概率分布           |
| 状态值函数     | V(s)     | 状态价值评估         | 状态s          | 期望累积奖励值         |
| 动作值函数     | Q(s,a)   | 状态-动作价值评估    | 状态s, 动作a   | 期望累积奖励值         |
| 优势函数       | A(s,a)   | 动作相对优势评估     | 状态s, 动作a   | Q(s,a)与V(s)的差值     |
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值