MARL算法笔记：COMA

最新推荐文章于 2024-09-10 21:24:57 发布

峻菌君

最新推荐文章于 2024-09-10 21:24:57 发布

阅读量1.2k

点赞数 3

CC 4.0 BY-SA版权

文章标签：深度学习

本文链接：https://blog.csdn.net/qq_44211389/article/details/123598440

COMA（Counterfactual Multi-Agent Policy Gradients）是一种用于多智能体强化学习的方法，通过引入counterfactual baseline解决了信用度分配问题。它改进了优势函数，使得每个智能体能更准确地评估其行动相对于其他智能体平均行为的效果。这种方法避免了模拟器的额外计算，简化了网络训练，并提高了学习稳定性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

COMA

Counterfactual Multi-Agent Policy Gradients

keywords: Multi-agent AC method; 用counterfactual baseline解决信用度分配问题

1.方法总结:

在这里插入图片描述

IAC框架+一个优势函数+一个trick

先学习 $Q (s, u)$ , $s$ 是全局 $s t a t e$ , $u$ 是联合动作
counterfactual baseline方法
$A^a(s,u) = Q(s,u) - \sum_{{u'}^{a}}\pi^a({u'}^a|\tau^a)Q(s,({u}^{-a},{u'}^a))$
```
第一项表示：其他人不动，我现在这个动作有多好
第二项表示：其他人不动，我平均动作来看有多好。counterfactual baseline
```
一个trick：用efficient way来计算 $Q(s,({u}^{-a},{u'}^a))$

4. 用 $A^a(s,u)$ 来更新每个agent：
$\theta=\theta+\alpha\nabla_{\theta}log\pi_{\theta}A^a(s,u)$

2.学习思路

1.更好的Actor需要更好的优势函数

在单智能体agent的AC算法和REINFORCE算法中，最后到底想要什么？

“The critic is used only during learning and only the actor is needed during execution”

答案是：我们最后的一切目的是得到Actor： $π(a∣s)\pi(a|s)$

在AC中，我们使用Critic来更好的更新Actor：
$\theta=\theta+\alpha\nabla_{\theta}log\pi_{\theta}Q_w(s,a)\tag1$
为了获得更好的Actor，当然我们也要更好的 $Q_w(s,a)$ ，COMA也就是在这个 $Q_w(s,a)$ 上做的文章，用了更好的优势函数将其代替。

2.IAC中优势函数不是足够好

具体过程

按照定义，多智能体的Independent Actor Critic中，每个agent把除自己外的其他agent和环境统一视作环境，然后把自己看做一个单智能体，不断用AC算法，维护自己的Q和Actor。

而AC算法的流程是，agent进行一步step，然后获得reward，下一个状态，以及下一个状态的动作，然后更新两个参数的网络， $w$ 和 $θ\theta$ ,并不断循环。

缺点:

不稳定。作为一个单智能体，其在同样的观测下做出同样的动作，reward很可能不一样。

Trick:

简化处理：所有agent共用一套网络参数： $A c t o r$ & $C r i t i c$
可以使用两种变体（优势函数）：

$\theta=\theta+\alpha\nabla_{\theta}log\pi_{\theta}A^{\pi_\theta}(o,a); A^{\pi_{\theta}}(o,a) = Q(o,a) - V(o)\tag2$

$\theta=\theta+\alpha\nabla_{\theta}log\pi_{\theta}TD_{error};TD_{error} = r+V(o_{t+1}) - V(o_t)\tag 3$

插曲：一个问题

Q: 在IAC中，每个单智能体，它的奖励是多少？因为奖励是环境给的，而环境给的时候是根据全局状态和全局动作给，你只给我一个单智能体的action，环境是不会给你你单独这个action的奖励的。换句话说，如果环境能很合理地根据单智能体的action给出合理的评价与奖励，那就没有后话了。

A: 而在星际争霸环境下，代码表示，当使用IAC的时候，每个单智能体的奖励是共享全局奖励的。例：三个agent的动作为actions = (上，下，开枪)，代码执行r = env.step(actons)，此时这个r就是一个具体的数，可能是0.8。这个时候这三个agent的reward都是0.8;当然，如果环境本身能够很好的给每个单智能体一个reward，也很好。