存在的问题&研究动机&研究思路
- 在不同的课程或不同的step中,输入状态的维度是动态变化的,而神经网络的size是固定的。因此提出了DyAN来解决这个问题。
- 在large scale multi-agent领域,curriculum learning是常见的范式。CL:在训练完整任务之前,先定义一系列的源任务,并训练之。
- 在多智能体领域普遍存在一些性质:部分可观测、稀疏交互(每个智能体一般不会与所有智能体进行交互)、状态语义(每个状态包含的语音信息可以用来衡量状态之间的相似性)。
- 针对以上几种性质,有几种迁移机制:模型重载由于当处于不同任务下或相同任务不同step下,输入的size是变化的,因此不能直接使用。而Buffer Reuse and Curriculum Distillation是两种不受网络输入大小限制的迁移机制,但也不能直接使用,都需要先将输入reshape成相同size。
创新点
- 提出Dynamic Number Agent Network来解决网络输入大小动态变化的问题,其使用GNN来解决输入动态变化的维度大小。
- 通过定义语义映射函数Φ(⋅)\Phi(·)Φ(⋅),将不同任务的状态(size不同)映射到相同size的语义状态空间中。同样的,也适用于将每个智能体的局部观测值映射到相同的空间。
- 因此,DyMA-CL的重点就是如何利用DyAN将语义近似的状态或观测值映射到同一潜在空间的相似位置。
算法框图
实验
实验表明:
- 在三种知识迁移机制中,model reload表现最好。DyAN正确学习到语义映射函数Φ(⋅)\Phi(·)Φ(⋅)是关键。
- 在GNN的聚合阶段,SUM在三种聚合方式中表现最好。通过降维可以看出,其聚类效果最好。
- model reload的初始奖励明显高于从头训练,再次证明了model reload机制在多智能体课程学习中的重要性。
some points
- 本文章的课程学习的跨度还是人为设计的,文章最后提到可研究如何“自动”进行课程学习。
- 或者提出更有效的知识迁移机制。(个人认为,可能设计新的语义映射函数Φ(⋅)\Phi(·)Φ(⋅)是更可能有效的方式。)