
图算法
文章平均质量分 80
妙龄少女郭德纲
个人公众号 是十三不是四十三 ,分享一些算法和大数据相关的知识~
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
图计算:基于SparkGrpahX计算聚类系数
聚类系数(Clustering Coefficient)是图计算和网络分析中的一个重要概念,用于衡量网络中节点的局部聚集程度。它有助于理解网络中节点之间的紧密程度和网络的结构特性。这是一种用来衡量图中节点聚类程度的指标。它主要衡量一个节点的邻居之间的连接程度,反映了图中局部的紧密性或群聚程度。聚类系数可以用来揭示网络中的社区结构和节点之间的关系。聚类系数适用于无向图,PageRank适用于有向图。聚类系数的定义。原创 2024-09-12 10:12:41 · 661 阅读 · 0 评论 -
基于SparkGraphX实现带权重的PageRank算法
网页排序算法之PageRank其实PageRank也没跳出之前在前几篇文章中提到过的Pregel三件套,步骤一样,按需求修改源码即可。原创 2024-09-02 12:18:03 · 622 阅读 · 0 评论 -
使用SparkGraphX进行图计算时的编码问题
在SparkGraphX体系中,要求图网络中的点ID必须为Long类型,不像Python中的networkX工具包支持字符串类型的节点表示,但在现实场景中,有很多情况下,点ID都是字符串类型的,如身份证号、设备号或是埋点采集到的uid等等,都不是单纯能够使用Long类型来表示的。为解决上述问题,本文将提出两种解决方案,分别是Hash编码以及Row_number编码,接下来本文将详细描述上述两种方案的优缺点以及实现代码(基于Scala实现)。与Python自带的Hash编码不同,Java中的hash编码,多原创 2024-08-27 11:49:33 · 606 阅读 · 0 评论 -
基于Spark计算网络图中节点之间的Jaccard相似性
什么是MinHashLSH。原创 2024-08-22 16:16:58 · 677 阅读 · 0 评论 -
基于Spark实现大数据量的Node2Vec
Node2Vec 是一种基于图的学习算法,用于生成图中节点的低维度、高质量的向量表示。这种算法基于 word2vec 模型,将自然语言处理中的词嵌入技术应用于图结构的节点,以捕捉节点之间的复杂关系。Node2Vec 特别强调同时保留图中的局部(微观)和全局(宏观)结构信息。Node2Vec生成的节点嵌入可以有效的表示节点的网络邻域结构,其中相似或功能相关的节点在向量空间中彼此靠近,并且也可以当做特征输入到下游的机器学习任务。之前有写过一篇Python实现Node2Vec的文章,里面详细写了算法原理以及实现原创 2024-08-21 17:18:58 · 531 阅读 · 0 评论 -
基于SparkGraphX实现大数据量的Louvain算法(附Scala代码)
之前针对社群发现类算法有写过一篇用Python实现的面向小数据集的文章,其中也有涉及到Louvain算法的原理,今天这篇将主要专注于借助SparkGraphX实现Louvain算法的实现方案,该方案将更适用于大数据量,并且扩展性较好,集群资源给够就可以支持更大的数据量。不过需要注意的是,图计算框架SparkGraphX其实并不算是一个非常高效的框架(存在数据交换开销等等,可以查下资料图片),但是由于其依托于成熟的大数据框架Spark而实现,故而可以说是大数据图计算领域最为常用的一个图计算框架。其他的图计算框原创 2024-08-20 17:58:18 · 876 阅读 · 0 评论 -
风控图算法之中心性算法(小数据集Python版)
图算法在金融风控领域的应用已经超越了传统的社区发现技术,这些技术曾被主要用于识别和分析欺诈性行为模式,例如黑产团伙。当前,一系列图统计算法,包括介数中心性(Betweenness)、核(Kcore)、以及PageRank等,正逐渐展现出它们在风险评估和管理中的重要作用。这些算法不仅作为辅助判别工具,帮助揭示交易网络中的潜在风险点,而且在识别网络中的核心和影响力节点方面发挥着关键作用。通过精确识别这些核心节点,金融机构能够更有效地监测和防范可能的风险传播路径,从而增强整体的风险控制框架。原创 2024-06-28 14:48:01 · 1349 阅读 · 0 评论 -
风控图算法之社群发现算法(小数据集Python版)
在风险控制领域,图算法扮演着日益重要的角色。(这方面的资料有很多,不再赘述)特别是社群发现算法,它通过揭示数据间的复杂网络结构,帮助我们识别潜在的风险模式和欺诈行为。从社交网络中的群体行为分析到金融市场的异常交易检测,社群发现算法以其独特的视角,为我们提供了理解和预测风险的新方法。本文将简单介绍几种常用的社群发现算法及其实现代码,主要是针对小数据集的Python版本,后续将更新针对大数据的基于SparkGraphX的实现方案。原创 2024-06-27 15:07:24 · 1911 阅读 · 0 评论 -
常用的图算法工具库总结【单机版】
在当今数据驱动的世界中,图论和图算法在多个领域扮演着越来越重要的角色。从社交网络分析到网络安全,从生物信息学到交通网络优化,图结构数据的管理和分析需求催生了一系列强大的图算法工具库。这些库提供了丰富的功能,帮助研究者和开发者深入挖掘图数据的潜力,解决复杂的实际问题。当我们谈论图算法工具库时,单机版的库因其易于部署、使用简便而广受欢迎。在这一领域,有几个名字格外突出:NetworkX、SNAP(Stanford Network Analysis Platform)、以及igraph等等。这些库不仅功能强大,而原创 2024-06-05 16:20:38 · 1363 阅读 · 0 评论