一、论文概述
这是一篇2018年发表在IEEE知识与数据工程汇刊上的图嵌入的综述,论文题目为A Comprehensive Survey of Graph Embedding:Problems, Techniques, and Applications。如题目所示,主要对图嵌入问题中存在的挑战、现有的一些技术和应用场景进行了总结。
1 文章摘要
图是一种重要的数据表示形式,它出现在各种现实场景中。有效的图分析可以让用户更深入地了解数据背后的内容,从而受益于许多有用的应用,如节点分类、节点推荐、链接预测等。然而,大多数图分析方法都有很高的计算和空间成本。图嵌入是解决图分析问题的一种有效而高效的方法。它将图形数据转换成一个能最大限度地保留图形结构信息和图形属性的低维空间。在这项调查中,我们对图嵌入的文献进行了全面的回顾。
- 首先介绍了图嵌入的形式化定义及其相关概念。
- 在此之后,我们提出了图嵌入的两种分类,它们对应于在不同的图嵌入问题设置中存在哪些挑战,以及现有的工作如何在它们的解决方案中解决这些挑战。
- 最后,从计算效率、问题设置、技术和应用场景四个方面总结了图嵌入的应用,并提出了未来的研究方向。
2 关键词
图嵌入:Graph embedding
图分析: graph analytics
图嵌入调查:graph embedding survey
网络嵌入: network embedding
同构图:homogeneous graph
异构图:heterogeneous graph
带有辅助信息的图:graph with auxiliary information
由非关系数据构造的图:graph constructed from non-relational data
知识图:knowledge graph
3 文章脉络
- 理解图嵌入问题所需的基本概念的定义,并给出了图嵌入问题的形式化定义,提供了图嵌入的两个分类。
- 比较了基于问题设置的相关工作,并总结了在每个设置中所面临的挑战。
- 根据嵌入技术对文献进行分类。每一种技术背后的见解都被抽象出来,并在最后提供了不同技术的详细比较。
- 介绍图形嵌入支持的应用。
- 讨论了四个潜在的未来研究方向.
- 总结了本研究。
4 文章贡献
- 基于问题设置将图嵌入分成两类,并总结了在两类问题中所面临的挑战。
- 详细的分析了图嵌入技术,对图嵌入工作进行了全面的调查,而且给出了每个技术背后的知识,回答了为什么图形嵌入可以以某种方式解决的问题。
- 系统地对图嵌入的应用进行了分类,并将其划分为与节点相关、与边相关和与图相关的应用。对于每个类别,提供了详细的应用场景作为参考。
- 从计算效率、问题设置、求解技术和应用四个方面提出了未来在图嵌入领域的研究方向和目前工作中的不足之处。
二、图嵌入是什么
1 简单概念
- 解决问题:一种解决图分析问题的有效方法
- 概念:图嵌入将一个图转换成一个低维空间,其中的图信息被保留。通过将一个图表示为一个(或一组)低维向量,可以有效地计算图算法。
- 输入:由于图的类型不同(如同构图、异构图、属性图等),在不同的场景下,图嵌入的输入也不同。
- 输出:图嵌入的输出是表示图的一部分(或整个图)的低维向量。
关于不同类型的图嵌入输入和输出的更多细节在文章第3节中提供。
2 形式化定义
同构图(homogeneous graph):节点和边都只有一个类型。
异构图(heterogeneous graph):节点和边都有两种及以上的类型。
知识图(knowledge graph):一个有向图,节点是实体,边是一个三元组。每条边的形式为头实体、关系、尾实体,记为< h,r,t >,指从实体h到实体t中有关系r。
知识图中的实体和关系通常是不同类型的。因此,知识图可以看作是异构图的一个实例。
如何量化嵌入空间中要保留的图属性
- 一阶邻近度是指仅由边连接的节点之间的局部成对相似度,它比较一个节点对之间的直接连接强度。在形式上,如果两个节点之间的边具有较大的权值,则两个节点之间的关系更相似。
vi与vj的一阶邻近度为图G的邻接矩阵中的第i行第j列的元素,即边eij的权重。
vi与其他节点之间的一阶邻近度为图G邻接矩阵A的第i行 - 二阶邻近度比较节点的邻近结构的相似性。两个节点的邻域越相似,它们之间的二阶邻近值越大。在形式上,vi与vj的二阶邻近度为vi与vj的与其他节点一阶邻近度的相似度。
- 高阶邻近度,类似的,vi与vj的k阶邻近度为vi和vj的与其他节点的k-1阶邻近度的相似度。也可以使用Katz Index, Rooted PageRank, Adamic Adar等来度量。
注:在一些工作中,一阶近似和二阶近似是根据两个节点的联合概率和条件概率经验计算的。
图嵌入问题的形式化定义:
给定一个图的输入G = (V,E),并预先定义了嵌入的维度d (d << |V|)。图嵌入问题是将G转换成一个d维空间,在这个空间中尽可能保留图的属性。图属性可以使用邻近度量,如一阶和高阶邻近度来量化。每个图可以表示为一个d维向量(对于整个图)或一组d维向量,每个向量表示图的一部分(如节点、边、子结构)的嵌入。
3 图嵌入发展
- 21世纪初,图嵌入算法主要是通过假设数据处于低维