Actor Critic算法

最新推荐文章于 2024-12-20 08:00:00 发布

大模型与Agent智能体

最新推荐文章于 2024-12-20 08:00:00 发布

阅读量1.8k

点赞数

CC 4.0 BY-SA版权

分类专栏： AI & Big Data案例实战课程

热烈祝贺Gavin大咖2024年北京航空航天大学两本新书《Transformer&ChatGPT解密：原理、源码及案例》、《Transformer& Rasa 解密: 原理、源码及案例》出版发行

本文链接：https://blog.csdn.net/duan_zhihua/article/details/103097054

AI & Big Data案例实战课程专栏收录该内容

167 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

Actor Critic算法结合Policy Gradient的演员网络与Function Approximation的评判家网络，演员执行动作，评判家对其打分，通过评分反馈优化演员的行为策略。应用于钟摆游戏的连续动作和小车立杆游戏的离散动作场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Actor Critic(直译为演员评判家算法，易理解)：

结合两个网络：演员网络Policy Gradient (Actor)+ 评判家网络Function Approximation (Critic)，演员Actor 基于概率表演动作行为, 评判家Critic 基于演员Actor 的行为进行评论打分, 演员Actor 根据评判家Critic 的评分改进表演行为的概率。

钟摆游戏的动作是一个连续值：

演员网络：

评判家网络：

import tensorflow as tf
import numpy as np
import gym

np.random.seed(2)
tf.set_random_seed(2)

class Actor(object):
    def __init__(self,sess,n_features,action_bound,lr=0.0001):
        self.sess =sess
        self.s = tf.placeholder(tf.f

了解本专栏