https://zhuanlan.zhihu.com/p/68821440?from_voters_page=true
奖励(Reward-R):Agent做出一个动作时的及时收益
回报(Return-G):未来奖励的总和
一、核心函数框架
- 环境交互函数
| 函数名 | 符号 | 描述 | 输入参数 | 输出结果 |
|--------------|------------|--------------------|-------------------|----------------|
| 状态转移概率 | P(s'\|s,a) | 环境状态转移概率 | 当前状态s, 动作a | 新状态s' |
| 奖励函数 | R(s,a,s') | 即时奖励计算 | 状态s, 动作a, 新状态s' | 奖励值r |
| 折扣因子 | γ | 未来奖励衰减系数 | 无 | 取值范围[0,1] |
- 智能体函数
| 函数名称 | 符号表示 | 功能描述 | 输入参数 | 输出结果 |
|---------------|----------|----------------------|---------------|-----------------------|
| 策略函数 | π(a\|s) | 动作选择概率分布 | 状态s | 动作概率分布 |
| 状态值函数 | V(s) | 状态价值评估 | 状态s | 期望累积奖励值 |
| 动作值函数 | Q(s,a) | 状态-动作价值评估 | 状态s, 动作a | 期望累积奖励值 |
| 优势函数 | A(s,a) | 动作相对优势评估 | 状态s, 动作a | Q(s,a)与V(s)的差值 |