Actor-Critic算法

最新推荐文章于 2025-07-21 18:25:11 发布

原创最新推荐文章于 2025-07-21 18:25:11 发布 · 172 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#算法 #机器学习 #人工智能

人工智能专栏收录该内容

4 篇文章

订阅专栏

文章探讨了PolicyGradient中的回合更新模式及其局限性，引出了Actor-Critic算法。该算法通过Critic即时评估每一步动作的效果，以实现单步更新，加快学习进程。Actor-Critic的核心是分离出Actor（选择动作）和Critic（评价动作），两者基于不同的目标函数进行更新，且Critic通常用深度神经网络实现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在 policy gradient 中讲解到的多种评估指标已经涵盖了下面要介绍的 Actor-Critic 的思想，梯度策略算法往往采用回合更新的模式，即每轮结束后才能进行更新。

如某盘游戏，假如最后的结果是胜利了，那么可以认为其中的每一步都是好的，反之则认为其中的每一步都是不好的。

下图 Monte-Carlo Policy Gradient 方法

Reinforce Policy Gradient

上图中的是 policy network 输出的概率， Vt 是当前这一局的结果。这是 policy gradient 最基本的更新形式。

但我们前面也分析了：最后的结果好并不能说明其中每一步都好。我们能不能抛弃回合更新的做法，加快到单步更新呢，Actor-Critic 算法就做了这个调整。

但要采用单步更新，我们就需要为每一步都即时做出评估。Actor-Critic 算法中的 Critic 负责的就是评估这部分工作，而 Actor 则是负责选择出要执行的动作。这就是 Actor-Critic 的思想。Critic 的输出有多种形式，可以采用 Q 值、V 值或 TD 等。

总结一下Actor-Critic算法核心思想：

在 Actor-Critic 算法中，Critic 是评判模块（多采用深度神经网络方法），它会对动作的好坏评价，然后反馈给 Actor（多采用深度神经网络方法），让 Actor 更新策略。

从具体的训练细节来说，Actor 和 Critic 分别采用不同的目标函数进行更新。

博客等级

码龄9年

113
原创

29
点赞

202
收藏

1465
粉丝

关注

私信

热门文章

分类专栏

大数据 80篇
flink 2篇
人工智能 4篇
matlab 1篇
java 18篇
Linux 8篇
python 1篇

展开全部收起

上一篇：: 深度学习——A3C算法

下一篇：: 算法 From on-policy to off-policy

最新评论

使用 Apache Flink 开发实时 ETL
小胖java: 可以抽取本地文件吗？
Spark/Flink广播实现作业配置动态更新
CSDN-Ada助手: 一定要坚持创作更多高质量博客哦, 小小红包, 以资鼓励, 更多创作活动请看: 新星计划2023: https://marketing.csdn.net/p/1738cda78d47b2ebb920916aab7c3584?utm_source=csdn_ai_ada_redpacket 新星计划2023: https://marketing.csdn.net/p/1738cda78d47b2ebb920916aab7c3584?utm_source=csdn_ai_ada_redpacket 上传ChatGPT/计算机论文等资源，瓜分￥5000元现金: https://blog.csdn.net/VIP_Assistant/article/details/130196121?utm_source=csdn_ai_ada_redpacket 新人首创任务挑战赛: https://marketing.csdn.net/p/90a06697f3eae83aabea1e150f5be8a5?utm_source=csdn_ai_ada_redpacket Microsoft Edge功能测评！: https://activity.csdn.net/creatActivity?id=10403?utm_source=csdn_ai_ada_redpacket 职场解惑讨论会: https://activity.csdn.net/creatActivity?id=10427?utm_source=csdn_ai_ada_redpacket 可持续能源技术真的能改变世界吗？: https://activity.csdn.net/creatActivity?id=10425?utm_source=csdn_ai_ada_redpacket 无效数据，你会怎么处理？: https://activity.csdn.net/creatActivity?id=10423?utm_source=csdn_ai_ada_redpacket 物联网技术正在如何影响我们的生活: https://activity.csdn.net/creatActivity?id=10421?utm_source=csdn_ai_ada_redpacket 生物识别技术能否成为应对安全挑战的绝佳选择？: https://activity.csdn.net/creatActivity?id=10411?utm_source=csdn_ai_ada_redpacket 应届生如何提高职场竞争力: https://activity.csdn.net/creatActivity?id=10409?utm_source=csdn_ai_ada_redpacket 讯飞星火大模型将超越chatgpt？: https://activity.csdn.net/creatActivity?id=10407?utm_source=csdn_ai_ada_redpacket 职场新人备忘录: https://activity.csdn.net/creatActivity?id=10405?utm_source=csdn_ai_ada_redpacket VR vs AR：哪种技术更有潜力改变未来？: https://activity.csdn.net/creatActivity?id=10399?utm_source=csdn_ai_ada_redpacket “裸奔”时代下该如何保护网络隐私: https://activity.csdn.net/creatActivity?id=10401?utm_source=csdn_ai_ada_redpacket 蓝桥杯备赛指南分享: https://activity.csdn.net/creatActivity?id=10317?utm_source=csdn_ai_ada_redpacket
大数据技术架构(组件)——Hive：环境准备2
行业报告: 头发少点好，透气，不然闷得慌
大数据技术架构(组件)——Hive：环境准备2
mylife512: 中间有点稀了
大数据技术架构(组件)——Hive：环境准备2
什么都干的派森: 你头发还有多少

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

mylife512 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。