A Gentle Introduction to Deep Learning for Graphs 图深度学习的温和介绍

最新推荐文章于 2023-11-20 12:37:18 发布

流浪码工

最新推荐文章于 2023-11-20 12:37:18 发布

阅读量5k

点赞数 3

CC 4.0 BY-SA版权

分类专栏： DGL

本文链接：https://blog.csdn.net/m0_44967199/article/details/104309201

文章目录

论文：A Gentle Introduction to Deep Learning for Graphs

作者：Davide Bacciua, Federico Erricaa, Alessio Michelia, Marco Poddaa
意大利比萨大学计算机科学系

来源：Machine Learning (cs.LG)

论文链接：
https://arxiv.org/pdf/1912.12693.pdf

摘要
图形数据的自适应处理是一个长期存在的研究主题，近来已被整合为深度学习社区的主要兴趣主题。相关研究的数量和广度迅速增加是以缺乏知识的系统化和对早期文献的关注为代价的。这篇文章主要是想作为图的深度学习领域的教程。相对于对最新文献的阐释，它主张对主要概念和体系结构方面进行一致且渐进的介绍，读者可参考其中的可用调查。本文从上至下对问题进行了介绍，介绍了一种基于局部和迭代方法来进行结构化信息处理的图形表示学习的广义公式。它介绍了基本的构建基块，可以将其组合起来设计出新颖而有效的图形神经模型。通过对有趣的研究挑战和在该领域中的应用的讨论来补充方法论的论述。

**关键字：**图的深度学习，图神经网络，结构化数据学习，教程

1.简介

图形是表示各种人工和自然交互过程产生的不同性质数据的强大工具。图数据具有组成性质（是原子信息片段的复合）以及关系性质，因为定义其结构的链接表示链接的实体之间的某种形式的关系。图表允许通过链接方向和标签来表示大量的关联:例如离散关系类型、化学性质和分子键的强度。但最重要的是，图形无处不在。在化学和材料科学中，它们代表化合物的分子结构，蛋白质相互作用和药物相互作用网络，生物和生物化学关联。在社会科学中，网络被广泛用于代表人们的关系，而推荐系统则使用复杂的购买行为。

此类数据的丰富性以及大型存储库的可用性不断提高，引起了人们对能够以自适应方式处理图形的深度学习模型的兴趣激增。与这一总体目标相关的方法论和实践挑战是下面几个。首先，图形的学习模型应该能够适应在大小和拓扑结构上不同的样本。除此之外，关于节点标识和跨多个样本排序的信息很少可用。同时，图是离散的对象，这对可微性有一定的限制，而图的组合性质又阻碍了穷举搜索方法的应用。最后，最一般的图类允许出现循环，这是消息传递和节点访问的复杂性来源。换句话说，处理图形数据在表现形式和计算复杂度方面，以及在矢量数据学习方面，都带来了前所未有的挑战。因此，这是一个很好的开发和测试新的神经网络方法的领域。

尽管最近深度学习社区掀起了一阵热潮，但用于图的神经网络领域已有悠久而巩固的历史，它起源于90年代初，涉及树状结构数据的递归神经网络（RecNN）的开创性工作（请参阅[ [98、32、9]及其中的参考文献）。 RecNN方法后来在自然语言处理应用程序的上下文中重新发现[99，97]。同样，它从有向无环图开始逐渐扩展到更复杂和更丰富的结构[75]，为此，它已经得到了通用逼近的保证[44]。递归处理结构还被概率论所利用，首先作为一个纯理论模型[32]，然后更实际地通过有效的近似分布[6]。

递归模型共享一个(神经)状态转换系统的思想，该系统遍历结构以计算其嵌入。将这种方法扩展到一般图(循环/非循环、有向/无向)的主要问题是循环的处理，因为在神经递归单元中定义的状态变量之间存在相互依赖关系。最早解决这个问题的模型是Graph Neural Network (GNN)[89]和Neural Network for Graphs (NN4G)[74]。GNN模型是基于一个类似于RecNN的状态转换系统，但是它允许在状态计算中循环。相反，NN4G提出了一种想法，即可以通过利用架构中先前层的表示来管理相互依赖关系。通过这种方式，NN4G用多层架构打破了图数据循环中的递归依赖关系。这些模型为图形处理的两种主要方法奠定了基础，即递归(GNN)方法和前馈(NN4G)方法，从而开创了这一领域。特别是后者现在已经成为主流的方法，在graph convolutional (neural) networks的统称下。(以在2015年前后重新引入上述概念的方法命名[59,42])。

本文从这一历史角度出发，对图的神经网络领域进行了简要介绍，在现代术语中也称为图的深度学习。本文旨在作为具有教程性质的论文，赞成对主要概念和构建块进行有充分依据的，一致的和渐进的介绍，以组装图的神经体系结构。因此，它的目的不是要对有关该主题的最新出版作品进行阐述。这种教程方法的动机是多方面的。一方面，近年来关于图形深度学习的著作激增，这是以一定程度的遗忘(如果不是缺乏适当的引用的话)为代价的，这种遗忘是开创性和综合性著作的结果。因此，存在重新发现已知结果和模型的风险。另一方面，社区开始注意到图的深度学习模型评估中令人不安的趋势[93,25]，这需要更多的有原则地对待这个话题。最后，文献[7,15,38,43,111,112,126,127]中开始出现一定数量的调查论文，而对方法的介绍似乎比较缓慢。

本教程采用自顶向下的方法，同时对主要概念和思想的引入保持一个清晰的历史视角。为此，在第2节中，我们首先提供了图形表示学习问题的一个通用公式，介绍并激发了我们将在本文其余部分中遵循的体系结构路线图。我们将特别关注处理信息的局部和迭代处理的方法，因为这些方法更符合神经网络的操作机制。在这方面，我们将较少关注基于谱图方法的全局方法(即假设单个固定邻接矩阵)。然后，在第3节中，我们将介绍可以组装和组合的基本构建块，以创建现代的图数据深度学习体系结构。在本文中，我们将介绍图卷积的概念，如局部邻域聚合函数、注意力的使用、在图上定义的抽样和池操作符，最后我们将讨论计算整个结构嵌入的聚合函数。在第4节中，我们将继续讨论图表示学习中的主要学习任务，以及相关的成本函数和相关的归纳偏差的描述。论文的最后一部分是对其他相关方法和任务的综述(第5部分)，并讨论了有趣的研究挑战(第6部分)和应用(第7部分)。

2. 高级概述

我们首先从图的深度学习的高级概述开始。为此，我们首先总结必要的数学符号。然后，讨论文学作品中绝大多数借用的动机和主要思想。

图1:

(a) 显示了带有无向和有向弧的输入图。

(b) 我们将无向弧转换为有向弧，以获得可行的图形学习方法输入。

(c）直观表示节点v1的(开)邻域。

2.1、数学符号

形式上，图 $g=\left(\mathcal{V}_{g}, \mathcal{E}_{g}, \mathcal{X}_{g}, \mathcal{A}_{g}\right)$ 是由一组顶点 $\mathcal{V}_{g}$ (也称为节点)和一组连接两个节点 $\mathcal{E}_{g}=\left\{(u, v) | u, v \in \mathcal{V}_{g}\right\}$ 的有向边(或弧)定义的。我们对无向弧进行建模，即， $(u, v) = (v, u)$ 形式的弧，有两个方向相反的弧。为了方便，我们有时会使用一对 $\left(\mathcal{V}_{g}, \mathcal{E}_{g}\right)$ 的另一种表示形式，即g的邻接矩阵，定义为 $\mathbf{A} \in\{0,1\}^{\left|V_{q}\right| \times\left|V_{s}\right|}$ 。

节点可以与特征向量 $\mathbf{x}_{v} \in \mathcal{X}_{g} \subseteq \mathbb{R}^{d}$ 相关联。同样,有向边可以有自己的特征向量 $\mathbf{a}_{u v} \in \mathcal{A}_{g} \subseteq \mathbb{R}^{d^{\prime}}$ 。在监督学习应用程序中，我们可能希望预测单个节点、一条边或整个图的输出，其ground truth标签分别称为 $y_{v}, y_{u v}$ 和 $y_{g}$ 。当从上下文中清除时，我们将省略下标g以避免冗长的表示法。

ground truth：在机器学习里面理解为真值、真实的有效值或者是标准的答案。
在机器学习中，术语”ground truth”指的是用于有监督训练的训练集的分类准确性，主要用于统计模型中验证或推翻某种研究假设。术语也指收集准确客观的数据用于验证的过程。

如果定义了节点上的总顺序，则图形是有序的，否则就是无序的。同样，如果存在从每条边到一组自然数的双射映射，则图是有位置的，否则就是无位置的。在本文的其余部分，我们将假设无序和非位置图。

节点 $v$ 的邻域定义为以有向弧连接到 $v$ 的节点集合，即， $\mathcal{N}_{v}=\left\{u \in \mathcal{V}_{g} |(u, v) \in \mathcal{E}_{g}\right\}。 \mathcal{N}_{v}$ 关闭，如果它总是包括u和开放，否则。如果弧标A的域是离散的、有限的，即， $\mathcal{A}=\left\{c_{1}, \ldots, c_{m}\right\}$ ，我们用弧标签 $c_{k}$ as $\mathcal{N}_{v}^{c_{k}}=\left\{u \in \mathcal{N}_{v} | \mathbf{a}_{u v}=c_{k}\right\}$ 定义 $v$ 的邻居子集。图1描述了一个具有无向和有向弧的图(1a)，以及它可以表示为机器学习模型输入的方式(1b)。相反，节点 $v 1$ 的(开放)邻域如图1c所示。

在下面几节中,我们将使用符号 $\ell$ 表示一个通用的 $层 / 迭代步骤$ 的机制，通过它，信息可以在整个图中传播。此外，我们用 $\mathbf{h}_{v}^{\ell}$ 表示在 $\ell$ 层的节点 $v$ 的隐藏状态向量，即节点的内部表示，而 $\mathbf{h}_{g}^{\ell}$ 表示在 $\ell$ 层与整个图 $g$ 相关的表示。重要的是，我们使用上下文一词来标识直接或间接影响特定节点表示形式 $\mathbf{h}_{v}^{\ell}$ 的节点集。

让我们也介绍一个定义在集合上的函数的通用符号，这是至关重要的，因为我们假设了无序邻域。在整个工作中，我们将使用字母 $\Psi$ 表示置换不变函数，即具有以下属性的函数： $\Psi(Z)=\Psi(\pi(Z))$ ，其中Z是泛型集合，而 $\pi(\cdot)$ 是任意值排列运算符。类似地定义了多集合上的置换不变函数。置换不变函数的示例是集合中所有元素的总和，均值和乘积。当集合是可数的（这是我们在实践中期望的）时，可以通过以下[123]近似任何置换不变函数：
$\Psi(Z) \approx \phi\left(\sum_{z \in Z} \psi(z)\right)$
其中 $\phi$ 和 $ψ$ 是任意的函数。

邻域是集合上的一种基础的拓扑结构。有邻域公理（邻域公理是现代数学拓扑结构的基础概念）、开邻域和闭邻域、去心邻域等的研究著作。
邻域是一个特殊的区间，以点a为中心点任何开区间称为点a的邻域，记作U(a)。

拓扑结构

拓扑空间是一个集合 $X$ 和其上定义的拓扑结构 $\tau$ 组成的二元组 $(X,\tau )$ 。 $X$ 的元素 $x$ 通常称为拓扑空间 $(X,\tau )$ 的点。而拓扑结构 $\tau$ 一词涵盖了开集，闭集，邻域，开核，闭包，导集，滤子等若干概念。从这些概念出发，可以给拓扑空间 $(X,\tau )$ 作出若干种等价的定义。在教科书中最常见的定义是从开集开始的。
而这里的拓扑结构我觉得直接理解为无向图即可。

在这里插入图片描述
图2：所有图学习方法共享的全局图。 DGN获取输入图并生成节点表示 $\mathbf{h}_{v} \forall v \in \mathcal{V}_{g}$ 。可以将这样的表示形式聚合起来以形成单个图形表示形式 $\mathbf{h}_{g}$ 。

2.2、动机

由于模型能够自动地从原始数据中提取相关特征来解决问题，因此表示学习在研究领域引起了广泛的兴趣。在这方面，卷积神经网络[61]可能是这种平面数据方法的最佳代表。由于结构化域允许表示比平面数据更清晰的信息，因此考虑实体之间的现有关系至关重要。换句话说，需要对结构进行自适应处理才能最大限度地利用这些附加信息。注意，在图的特定情况下，不能对图的大小或拓扑结构做出任何假设;因此，为了确保它们的普遍适用性，图数据处理方法必须在没有已知的和固定的因果关系的情况下设计。，该机制允许施加适当的顺序来处理图形组件)。

自适应就是在处理和分析过程中，根据处理数据的数据特征自动调整处理方法、处理顺序、处理参数、边界条件或约束条件，使其与所处理数据的统计分布特征、结构特征相适应，以取得最佳的处理效果的过程。
自适应过程是一个不断逼近目标的过程，它所遵循的途径以数学模型表示，称为自适应算法。通常采用基于梯度的算法，其中最小均方误差算法(即LMS算法)尤为常用。

2.3、大图

不管我们关心的训练目标是什么，几乎所有用于图的深度学习方法最终都会产生节点表示（状态） $\mathbf{h}_{v}, \forall v \in \mathcal{V}_{g}$ 。在[32]中，这个过程被称为执行图的同构转换。这些表示是并行访问图节点的结果;也就是说，在没有任何特定节点或划分的情况下遍历图。图2所示的整体机制非常有用，因为它允许处理节点、边和图相关的任务;例如，图7表示可以很容易地通过将其节点表示聚合在一起来计算。因此，研究人员和实践者的工作围绕着从图中自动提取相关特征的深度学习模型的定义展开。在本教程中，我们将这些模型称为深图网络(DGNs)。一方面，这个通用术语的目的是消除术语图神经网络(Graph Neural Net- work, GNN)和图卷积网络(Graph Convolutional Network, GCN)之间的歧义，图神经网络(Graph Neural Net- work, GNN)指的是[89]，而图卷积网络(Graph Convolutional Network, GCN)指的是[59]。这两个术语在文献中经常被用来表示操作在图数据上的整个类神经网络，在从业者中产生了歧义和混淆。另一方面，我们也使用它作为一个说明性分类的基础(如图3所示)，它将作为本节和后续部分讨论的路线图。

为了进一步阐明我们对术语的使用，这里DGN指的是产生最终内部节点表示 $\mathbf{h}_{v}$ 的体系结构的子集。可以通过将每一层计算得到的所有内部表示连接起来（进行级联），也可以通过获取最后一层生成的内部表示来获得。因此，术语DGN不包括全局节点聚合机制，也不包括最终分类器或回归器。通过这种方式，我们在体系结构上保持了一个模块化的视图，并且我们可以将任何DGN与一个通过使用最终的内部节点表示作为输入来解决任务的预测器相结合。

我们将DGNs分为三类:深度神经图网络(DNGNs)，其中包括受神经结构启发的模型;以图的概率模型为代表的深度贝叶斯图网络;还有深度生成图网络(DGGNs)，它包括利用神经模型和概率模型的图的生成方法。这种分类法绝不是方法的严格划分;实际上，我们在本教程中所关注的所有方法都是基于局部关系和迭代处理来将节点上下文分散到整个图中，而不考虑它们的神经或概率性质。

在这里插入图片描述图3：我们将详细讨论的体系结构路线图。

2.4、局部关系和信息的迭代处理

从任意图的总体中学习提出了两个基本问题:第一，对一般图的拓扑结构不作任何假设;第二，结构可能包含循环。现在我们讨论这两点，重点介绍文献中采用的最常见的解决方案。

具有可变拓扑的图。首先，我们需要一种无缝处理大小和形状均变化的图形信息的方法。在文献中，这已经通过构建在节点级别而不是图级别本地工作的模型来解决[98]。换句话说，模型只关心节点及其附近的关系。这回想起卷积模型中图像的局部处理，在该模型中，焦点集中在单个像素及其有限邻居（无论如何定义）上。这种平稳性假设可以极大地减少模型所需的参数数量，因为它们可在所有节点上重复使用（类似于卷积滤波器在像素上的重复使用方式）。此外，它有效且高效地结合了数据集中所有节点和图形的“经验”，以学习单个功能。同时，平稳性假设要求引入一些机制，这些机制也可以从图的全局结构中学习，我们将在下一节中讨论这些机制。

尽管有这些优点，但仅进行局部处理并不能解决可变邻域形状的图的问题。在非位置图的情况下会出现此问题，在这种情况下，没有一致的方式来排序邻域中的节点。在这种情况下，一种常见的解决方案是使用对每个节点的邻居集起作用的置换不变函数。

图4：显示了深度为3的网络在无向图中的上下文传播，其中波浪箭头表示上下文流。具体来说，我们通过从右到左查看图，重点关注最后一层节点 $u$ 的上下文。很容易看出，节点 $u$ 在 $\ell=2$ 时的上下文取决于其唯一邻居 $v$ 在 $\ell=1$ 时的上下文，后者又取决于节点 $u$ 在 $\ell=0$ （包括u）处的表示形式。因此，图的几乎所有节点都给出了 $u$ 的上下文。添加一点个人的理解，这里是否就是说，在考虑 u 和 v 的关系的时候，u 可以通过 v 考虑v 的领域节点的信息。

$图包含循环$ 。图的自适应局部处理意味着任何节点的中间状态都是其邻居状态的函数。因此，如果一个图包含一个循环，则需要处理节点状态之间的相互因果关系。解决这个问题的方法是假设一个迭代方案，即 $\mathbf{h}_{v}^{\ell+1}$ 是通过在上一次迭代中计算出的邻居状态定义的。这样，我们就可以近似出属于一个循环的节点之间的相互依赖关系。正如我们将看到的，这样的迭代定义可以很好地并入深层架构。

2.5、语境扩散的三种机制

本节介绍了上下文扩散，它可以说是局部图学习方法中最重要的概念。顾名思义，上下文扩散的目标是在整个图上传播信息。在更广泛环境中为节点提供与其有关的知识，而不是仅限于其直接邻域。这对于节点的更好的表达是很有必要的。

图4描述了通过迭代和局部方法扩散上下文的方式，其中我们显示了节点 u 在迭代 $\ell=2$ 时对图具有的“视图”。首先，我们观察到 u 的邻域。是由节点 v 给出的，因此 u 接收的所有上下文信息都必须经过v。如果从右向左看图片，则根据 $\mathbf{h}_{v}^{1}$ 定义的 $\mathbf{h}_{u}^{2}$ ， $\in \mathcal{N}_{u}$ ，这又是通过聚合三个不同颜色的节点（其中一个是u本身）来计算的。因此，通过迭代计算相邻特征的局部聚合，我们能够间接地向 u 提供有关图中更远的节点的信息。很容易看出迭代次数为3的时候，即 $\ell=3$ 时，足以增加上下文以包括图中的所有节点。换句话说，深度学习技术不仅对自动特征提取有用，而且对上下文扩散也起作用。上下文扩散的正式的描述在[74]中给出。

根据不同的上下文扩散机制，我们可以将大多数深度图学习模型划分为递归、前馈和构造方法。我们现在讨论它们是如何工作的以及它们之间的区别。

$循环架构$ 。该系列模型将节点信息的迭代处理实现为动态系统。这个家族中最受欢迎的两个代表是图神经网络[89]和图回波状态网络[35]。两种方法都依赖于施加收缩动力学来确保迭代过程的收敛。前者在（监督的）损失函数中施加了这样的约束，而后者则从（未经训练的）储层动力学的收缩性继承了收敛性。门控图神经网络[63]是循环体系结构的另一个示例，与[89]不同，迭代次数是先验固定的，无论是否达到收敛。在[69]中引入了一种基于集体推理的迭代方法，该方法不依赖任何特定的收敛标准。

这一系列模型通过建模节点状态相互依存关系，以迭代的方式来处理图循环。在这些情况下，我们可以将图4的符号 $\ell$ 解释为递归状态转换函数的“迭代步骤”，用来计算每一个节点的状态。

$前馈架构$ 。与递归模型不同的是，前馈模型没有利用递归单元在同一层上的迭代扩散机制，而是将多层叠加起来，以构成每一步学习的局部上下文。结果，由循环引起的相互依赖通过不同的参数化层进行管理，不需要约束来确保编码过程的收敛。为了与图4进行对比(这里对应的是一个层的索引)，这种组合性会影响每个节点的上下文，上下文随着网络深度的增加而增加，直到包含整个图[74]。

毫不奇怪，这种上下文扩散与CNNs的局部接受域有密切的相似性，这种相似性随着架构中添加更多层而增加。CNNs的不同之处在于，图没有固定的结构，因为邻居的大小可能不同，而且很少给出节点排序。特别是CNNs的局部接受域可以看作是图数据中一个节点的上下文，而平面数据上的卷积算子则回忆起图数据中节点的无序并行访问(即使参数化技术不同)。这就是 $图卷积层$ 这一术语在文献中经常使用的原因。

前馈模型系列因其简单、高效、适用于多种不同的任务而广受欢迎。但是，图的深层网络与其他深层神经网络同样面临与梯度相关的问题，尤其是与整个架构中的“端到端”学习过程相关时。

$建设性架构$ 。我们确定的最后一个族可以看作是前馈模型的特例，其中的训练是逐层进行的。建设性架构的主要好处是，深层网络不会因设计而导致消失/爆炸梯度问题，因此上下文可以更有效的在节点之间传播。在有监督的情况下，这种构造技术甚至可以自动确定完成一项任务所需的层数[26,72]。就像在图4中解释的那样，在图形模型中，该特性也与当前问题所需的上下文相关，因此，无需先验确定它，如[74]所示，其中层的深度和上下文形状已得到正式证明。此外，建设性模型的一个重要特征是它们以“分而治之”的方式解决问题，将任务逐步拆分为更简单的子任务（从而放宽了“端到端”方法）。每一层都有助于解决子问题，随后的层使用此结果逐步解决全局任务。

在这些建设性的方法中，我们提到了图数据的神经网络(NN4G)74，而最近的一种概率变体是上下文图数据马尔科夫模型(CGMM)[3]。

3.构建块

现在我们将注意力转向局部图学习模型的主要组成部分。这些构建块施加的体系结构偏差决定了模型可以计算的表示形式。本节的目的不是给出最全面，最笼统的表述，而在此表述下可以对所有模型进行形式化。相反，它的目的是展示许多体系结构共有的主要组成部分，以及如何将这些组成一个有效的图形学习模型。

3.1、邻域（邻居）聚集

局部图处理的核心是对邻居进行模型聚合以计算隐藏节点表示的方法。我们将遵循图是非位置的普遍假设，因此我们需要使用置换不变函数来实现聚合。为了便于注释，我们将假设在节点 v 上运行的任何函数都可以访问其特征向量 $\mathbf{x}_{v}$ 以及入射弧特征向量集 $\left\{\mathbf{a}_{u v} | u \in \mathcal{N}_{v}\right\}$ 。

以其最一般的形式，可以表示节点 v 在层/步骤 $\ell+1$ 处的邻域聚合如下：

$\mathbf{h}_{v}^{\ell+1}=\phi^{\ell+1}\left(\mathbf{h}_{v}^{\ell}, \Psi\left(\left\{\psi^{\ell+1}\left(\mathbf{h}_{u}^{\ell}\right) | u \in \mathcal{N}_{v}\right\}\right)\right) -------(1)$