【Graph Embedding】LINE：大规模信息网络的嵌入方法

最新推荐文章于 2023-11-15 15:46:50 发布

原创

最新推荐文章于 2023-11-15 15:46:50 发布 · 1.3k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #机器学习 #人工智能 #深度学习

LINE算法是MSRA在2015年提出的大规模信息网络嵌入方法，适用于有向图和无向图，能处理百万级节点和数十亿边的网络。它通过first-order和second-order相似性捕获节点关系，解决了DeepWalk在硬件资源有限条件下的挑战。LINE通过优化KL散度，结合Negative Sampling和Edge Sampling进行优化，有效处理大规模网络的训练问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

今天的这篇论文是 MSRA 2015 年的工作——《LINE: Large-scale Information Network Embedding》，截至目前共有 1900 多引用，主要的是如何在大尺度网络中应用 Embedding 技术。

1. Introduction

之前介绍的 DeepWalk 采用分布式并行方式来训练模型，但如果在硬件资源有限的条件下该如何训练出一个拥有百万结点和数十亿条边的网络呢？针对这种情况，MSRA 的同学们提出了一种可以应用于这种大规模网络计算的新型算法——LINE。LINE 适用于任何类型的网络结构，无论是有向图还是无向图，以及是否加权（DeepWalk 只适用于有向网络）。LINE 能够在单台服务器上训练数小时即可完成数百万结点和数十亿条边的网络训练。

2. LINE

2.1 First-order

很多 NetWork Embedding 算法只观察到了节点的链路表示，这种关系只具有 first-order 相似性，并没有捕捉到节点间更多的关系。这篇论文将在 first-order 的基础上探讨节点的 second-order 相似性。

second-order 并不是通过节点间的连接强弱来判定的，而是通过节点的共享邻域结构来确定的。作者通过利用节点的共享邻居来评估节点的相似性，这个想法来源于社会学和语言学，比如说：拥有很多共同朋友的人很可能有共同的兴趣从而很有可能成为朋友（现在不是朋友不代表以后不是朋友），与很多相似的单词一起使用的两个单词更可能有相似的含义。

以下图为例：