PageRank(PR)算法
用于评估网页链接的质量和数量,以确定该网页的重要性和权威性的相对分数,范围为0到10
从本质上讲,PageRank是找出图中顶点(网页链接)的重要性
GraphX提供了PageRank API用于计算图的PageRan
PageRank算法基本思想描述:被用户访问越多的网页更可能质量越高,而用户在浏览网页时主要通过超链接进行页面跳转,因此需要通过分析超链接组成的拓扑结构来推算每个网页被访问频率的高低。最简单的,我们可以假设当一个用户停留在某页面时,跳转到页面上每个被链页面的概率相同。
终止点问题:互联网中存在网页不满足强连通的特性,因为有一些网页不指向任何网页,导致前面累计得到的转移概率被清零,最终得到的概率分布向量所有元素几乎都为0。
比如下面这个图:C变成了一个终止点
陷阱问题: 是指有些网页不存在指向其他网页的链接,但存在指向自己的链接。比如下面这个图:
完整PageRank算法:
为了解决终止点问题和陷阱问题,下面需要对算法进行改进。假设选取下一个跳转页面时,既不选当前页面,也不选当前网页上的其他链接,而是以一定概率跳转到其他不相关网页,那么