多智能体强化学习论文——DyMA-CL（AAAI 2020）

最新推荐文章于 2024-03-30 22:48:56 发布

原创最新推荐文章于 2024-03-30 22:48:56 发布 · 881 阅读

CC 4.0 BY-SA版权

文章标签：

18 篇文章

订阅专栏

为解决多智能体系统中因输入状态维度动态变化导致的传统神经网络无法直接应用的问题，提出了一种名为DyAN的新方法。该方法利用图神经网络（GNN）处理动态输入尺寸，并通过语义映射函数将不同任务的状态统一到相同的潜在空间中。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

存在的问题&研究动机&研究思路

在不同的课程或不同的step中，输入状态的维度是动态变化的，而神经网络的size是固定的。因此提出了DyAN来解决这个问题。
在large scale multi-agent领域，curriculum learning是常见的范式。CL：在训练完整任务之前，先定义一系列的源任务，并训练之。
在多智能体领域普遍存在一些性质：部分可观测、稀疏交互（每个智能体一般不会与所有智能体进行交互）、状态语义（每个状态包含的语音信息可以用来衡量状态之间的相似性）。
针对以上几种性质，有几种迁移机制：模型重载由于当处于不同任务下或相同任务不同step下，输入的size是变化的，因此不能直接使用。而Buffer Reuse and Curriculum Distillation是两种不受网络输入大小限制的迁移机制，但也不能直接使用，都需要先将输入reshape成相同size。

提出Dynamic Number Agent Network来解决网络输入大小动态变化的问题，其使用GNN来解决输入动态变化的维度大小。
通过定义语义映射函数 $Φ(⋅)\Phi(·)$ ，将不同任务的状态（size不同）映射到相同size的语义状态空间中。同样的，也适用于将每个智能体的局部观测值映射到相同的空间。
因此，DyMA-CL的重点就是如何利用DyAN将语义近似的状态或观测值映射到同一潜在空间的相似位置。