actor-critic 相关算法简述

本文介绍了深度强化学习中的Actor-Critic算法,特别是A3C和A2C。A3C是一种异步方法,通过结合策略梯度和价值函数估计来优化策略。A2C则简化了A3C,只估计状态价值函数来表示动作价值,并使用优势函数进行策略更新。文中还提到了策略梯度、DQN、路径导数策略梯度算法,并探讨了与GAN的相似性。同时,强调了在实现中网络共享和探索机制的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文通过整理李宏毅老师的机器学习教程的内容,简要介绍深度强化学习(deep reinforcement learning)中基于 actor-critic 的相关算法。

李宏毅老师课程的B站链接:
李宏毅, 深度强化学习, actor-critic

相关笔记:
策略梯度法(policy gradient)算法简述
近端策略优化(proximal policy optimization)算法简述
DQN(deep Q-network)算法简述


asynchronous advantage actor-critic(A3C)


参考文献:
Volodymtr Mnih, Adria Puigdomenech Badia, Mehdi Mirza, Alex Graves, Timothy P. Lillicrap, Tim Harley, David Silver, Koray Kavukcuoglu, Asynchronous Methods for Deep Reinforcement Learning, ICML 2016

在基于 actor-critic 的相关算法里面,最知名的方法是 asynchronous advantage actor-critic,简称 A3C。
如果去掉异步(asynchronous),就是 advantage actor-critic,即 A2C。

首先回顾一下策略梯度法:
▽ R ˉ θ ≈ 1 N ∑ n = 1 N ∑ t = 1 T n ( ∑ t ′ = t T n γ t ′ − t r t ′ n − b ) ▽ ln ⁡ p θ ( a t n ∣ s t n ) \triangledown \bar R_{\theta} \approx \frac{1}{N} \sum_{n=1}^{N} \sum_{t=1}^{T_n} (\sum_{t^{\prime}=t}^{T_n} \gamma^{t^{\prime} - t} r_{t^{\prime}}^n - b) \triangledown \ln p_\theta(a^n_t | s^n_t) RˉθN1n=1Nt=1Tn(t=tTnγttrtnb)lnpθ(atnstn)

记累计激励为 G G G
G t n = ∑ t ′ = t T n γ t ′ − t r t ′ n G^n_t = \sum_{t^{\prime}=t}^{T_n} \gamma^{t^{\prime} - t} r_{t^{\prime}}^n G

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值