多智能体强化学习论文——DyMA-CL(AAAI 2020)

为解决多智能体系统中因输入状态维度动态变化导致的传统神经网络无法直接应用的问题,提出了一种名为DyAN的新方法。该方法利用图神经网络(GNN)处理动态输入尺寸,并通过语义映射函数将不同任务的状态统一到相同的潜在空间中。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

存在的问题&研究动机&研究思路

  1. 在不同的课程或不同的step中,输入状态的维度是动态变化的,而神经网络的size是固定的。因此提出了DyAN来解决这个问题。
  2. 在large scale multi-agent领域,curriculum learning是常见的范式。CL:在训练完整任务之前,先定义一系列的源任务,并训练之。
  3. 在多智能体领域普遍存在一些性质:部分可观测稀疏交互(每个智能体一般不会与所有智能体进行交互)、状态语义(每个状态包含的语音信息可以用来衡量状态之间的相似性)。
    在这里插入图片描述
  4. 针对以上几种性质,有几种迁移机制:模型重载由于当处于不同任务下或相同任务不同step下,输入的size是变化的,因此不能直接使用。而Buffer Reuse and Curriculum Distillation是两种不受网络输入大小限制的迁移机制,但也不能直接使用,都需要先将输入reshape成相同size。

创新点

  1. 提出Dynamic Number Agent Network来解决网络输入大小动态变化的问题,其使用GNN来解决输入动态变化的维度大小。
    在这里插入图片描述
  2. 通过定义语义映射函数Φ(⋅)\Phi(·)Φ(),将不同任务的状态(size不同)映射到相同size的语义状态空间中。同样的,也适用于将每个智能体的局部观测值映射到相同的空间。
  3. 因此,DyMA-CL的重点就是如何利用DyAN将语义近似的状态或观测值映射到同一潜在空间的相似位置

算法框图

在这里插入图片描述

实验

实验表明:

  1. 在三种知识迁移机制中,model reload表现最好DyAN正确学习到语义映射函数Φ(⋅)\Phi(·)Φ()是关键
  2. 在GNN的聚合阶段,SUM在三种聚合方式中表现最好。通过降维可以看出,其聚类效果最好。
  3. model reload的初始奖励明显高于从头训练,再次证明了model reload机制在多智能体课程学习中的重要性。

some points

  1. 本文章的课程学习的跨度还是人为设计的,文章最后提到可研究如何“自动”进行课程学习。
  2. 或者提出更有效的知识迁移机制。(个人认为,可能设计新的语义映射函数Φ(⋅)\Phi(·)Φ()是更可能有效的方式。)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值