- 博客(92)
- 资源 (4)
- 收藏
- 关注
原创 RALG-TKDE-2023
给定两个不同语言的知识图谱(KG),记为KGsK{G}_{s}KGs和KGtK{G}_{t}KGt,我们的目标是发现更多对齐的实体对。不同于现有方法,我们提出通过异构图谱(LG)独立学习关系表示,进而利用关系表示增强实体表示。图2展示了RALG的整体框架,包含四个组件:1) KG实体表示。使用图卷积网络(GCN)学习KGsK{G}_{s}KGs和KGtK{G}_{t}KGt中实体的基础嵌入表示xibasexibase;
2025-08-08 11:12:13
1198
原创 【论文翻译】RAKG
本文提出RAKG框架,一种文档级检索增强知识图谱构建方法。针对传统知识图谱构建面临的实体消歧复杂、模式定义僵化等挑战,RAKG创新性地将RAG技术反向应用于知识图谱构建过程。通过提取预实体作为中间表示单元,并利用这些预实体进行RAG查询,有效解决了大语言模型的长上下文遗忘问题,降低了共指消解复杂度。实验表明,RAKG在MINE数据集上准确率达到95.91%,较当前最佳基线GraphRAG提升6.2个百分点。该研究为文档级知识图谱构建提供了端到端解决方案,通过语料回溯检索和图结构检索两步策略,实现了知识图谱节
2025-08-08 10:56:37
816
原创 PEEA-WSDM-2023
本文提出了一种新型弱监督实体对齐框架PEEA,旨在解决现有方法在标注数据稀缺情况下的性能瓶颈。通过分析图神经网络模型在弱监督环境下失效的原因,作者设计了跨图位置编码(CPE)方法,将预对齐实体作为锚点生成一致性位置特征,并融合全局感知和关系感知信息。PEEA框架包含关系注意力层(RAL)和位置注意力层(PAL),分别提取结构关系特征和位置特征,最终整合形成高质量实体表示。实验表明,PEEA在OpenEA数据集上显著优于现有方法,为弱监督实体对齐任务提供了有效解决方案。
2025-08-08 10:14:07
977
原创 PEAFOWL-IEEE-2025
本文提出PEAFOWL协议,用于解决多方隐私保护机器学习(PPML)中的私有实体对齐问题。现有方法存在交集泄露、样本冗余和难以扩展至多方场景等缺陷。PEAFOWL通过原始数据集到交集的映射置换机制实现安全对齐,利用云服务器执行秘密共享混洗保护置换隐私,结合种子同态伪随机生成器降低通信开销。协议还设计了离线/在线变体,使计算复杂度与数据集规模呈线性关系。实验表明PEAFOWL在多方场景下开销不足训练总成本的1%,离线变体可减少50%在线时长。该协议为多方PPML提供了高效安全的解决方案,具有显著实施潜力。 关
2025-08-04 14:49:35
289
原创 LKGE-AAAI-2023
本文提出了一种终身知识图谱嵌入模型LKGE,用于处理不断增长的知识图谱。针对现有KG嵌入模型仅适用于静态图谱的局限性,该研究设计了遮蔽KG自动编码器进行嵌入学习与更新,通过嵌入迁移策略实现知识传递,并采用嵌入正则化防止灾难性遗忘。实验基于四种不同增长模式的数据集,结果表明LKGE在链接预测准确率、知识迁移能力和学习效率方面均优于现有方法。该模型能够有效适应新知识同时保留旧知识,为动态知识图谱应用提供了新的解决方案。
2025-08-04 14:35:49
834
原创 Lifelong Learning and Selective Forgetting via Contrastive Strategy
本文提出了一种基于对比学习的选择性遗忘学习(LSF)框架,将终身学习与选择性遗忘能力相结合。针对隐私保护需求,该方法通过特征空间操作实现高效遗忘:对于保留类别,保持同类样本特征紧凑;对于删除类别,使特征分散且不规则,模拟未训练状态。相比现有方法,该方案直接在特征提取层操作,无需额外输入,具有更快的遗忘速度和更广的适用性。实验表明,该方法在四个基准数据集上达到最先进水平。创新点包括:(1)首次将对比学习应用于机器遗忘;(2)通过特征分布调控实现记忆保持与选择性遗忘的独立控制;(3)针对分割任务引入背景类别对齐
2025-08-04 14:26:09
678
原创 【论文学习】KAG论文翻译
KAG框架通过知识增强生成技术显著提升大语言模型在专业领域的表现。该框架创新性地融合知识图谱与检索增强生成技术,提出五项核心设计:LLM友好的知识表示、图谱与文本块互索引、逻辑形式引导的混合推理引擎、语义推理对齐的知识校准以及KAG模型能力增强。实验表明,KAG在多跳问答任务中表现优异,HotpotQA和2Wiki数据集上F1值分别提升19.6%和33.5%。目前已在政务和医疗专业问答场景成功应用,显著提高了回答的专业性和准确性。该框架即将通过开源引擎OpenSPG提供支持,助力开发者构建更可靠的领域知识服
2025-08-01 17:30:05
1083
原创 HLMEA-AAAI-2025论文翻译
实体对齐(EA)对整合多源知识图谱(KG)至关重要。传统无监督EA方法试图消除人工干预,但常受限于准确率。随着大语言模型(LLM)兴起,利用其能力实现EA成为新方向,但面临两大挑战:如何构建基于LLM的EA问题框架,以及如何提取LLM中的背景知识实现无人工干预的EA。本文提出HLMEA——基于混合语言模型的无监督EA方法,将EA任务构建为筛选-单选问题,协同整合小语言模型(SLM)与LLM:SLM基于KG三元组生成的文本表示筛选候选实体,LLM进一步精筛出语义最匹配的实体。
2025-08-01 16:41:43
781
原创 FTF-ER-MM-2024论文翻译
本文提出了一种基于特征-拓扑融合的经验回放方法FTF-ER,用于解决连续图学习中的灾难性遗忘问题。该方法创新性地整合了特征和全局拓扑信息,通过梯度范数得分(GraNd)衡量特征重要性,并引入霍奇势得分(HPS)模块计算节点拓扑重要性。HPS通过霍奇分解获得全局拓扑排名,避免了传统方法中局部邻域采样带来的存储开销。实验表明,FTF-ER在OGB-Arxiv等数据集上显著优于现有方法,在平均准确率和遗忘率方面分别提升3.6%和7.1%,同时减少了存储成本和训练时间。该方法为连续图学习提供了更全面的数据利用视角和
2025-08-01 15:27:19
617
原创 FGWEA-ACL-2023论文翻译
本文提出FGWEA框架,一种基于融合Gromov-Wasserstein距离的无监督知识图谱实体对齐方法。该方法通过联合优化语义嵌入对齐(Wasserstein距离)和知识图谱结构对齐(Gromov-Wasserstein距离),克服了现有嵌入方法难以充分利用结构信息的局限性。为解决优化难题,设计了渐进式三阶段算法:从语义嵌入匹配开始,通过迭代更新实现跨图谱结构近似匹配,最终完成全局结构比对。在涵盖5种语言的14个知识图谱上验证,FGWEA在无监督且不调参情况下,性能超越21种基线方法(包括最先进的监督方法
2025-08-01 10:49:24
737
原创 ChatEA-ACL-2024论文翻译
本文提出ChatEA框架,通过融合大语言模型(LLM)与知识表示学习(KRL)方法提升实体对齐(EA)性能。针对传统EA方法依赖有限KG数据和黑箱式实体嵌入比较的局限性,ChatEA创新性地设计了KG结构转译模块,将KG转换为LLM可理解的编码格式,激活其海量背景知识;同时采用两阶段对齐策略,先通过KRL生成候选实体,再借助LLM的多步推理能力进行精细对齐。实验表明,ChatEA在传统和异构性更高的KG数据集上均显著优于现有方法,在挑战性数据集上Hits@1指标提升9%-16%。该研究为突破EA任务瓶颈提供
2025-08-01 09:36:51
1155
原创 AR-Align-NN-2024
实体对齐是知识图谱中的关键任务,旨在匹配不同知识图谱中的对应实体。由于现实场景中预对齐实体的稀缺性,无监督实体对齐研究日益受到关注。然而现有方法缺乏信息性实体引导,难以准确预测名称和结构相似的挑战性实体。为此,我们提出AR-Align框架——一种融合注意力重排序策略的无监督多视角对比学习方法。该框架采用两种数据增强技术分别生成邻域和属性的互补视图,通过多视角对比学习缩小增强实体间的语义鸿沟,并创新性地通过计算不同结构上的嵌入相似度加权和,对困难实体进行注意力重排序。
2025-07-31 20:05:58
707
原创 AGEA-EMNLP-2022论文翻译
本文提出了一种面向知识图谱实体对齐的自适应图卷积网络(AGEA),旨在解决现有方法中邻域噪声导致实体嵌入失真的问题。通过轻量级框架设计,该方法在监督和非监督场景下均表现优异。核心创新包括:(1)基于Sinkhorn算法设计伪等价实体可靠性度量;(2)提出自适应图卷积网络动态调整关系三元组权重以抑制噪声传播。实验表明,该方法在多个跨语言数据集上优于现有最优方法,且无需额外训练参数,具有高效性和可解释性优势。该研究为知识图谱融合中的实体对齐任务提供了新思路,尤其在处理噪声邻域信息方面取得了显著进展。
2025-07-22 17:11:58
1006
原创 CTEA-NN-2024论文翻译
基于嵌入的跨语言时序知识图谱实体对齐实体对齐旨在通过匹配多源知识图谱中的相同实体来构建完整的知识图谱(KG)。现有的实体对齐研究主要集中在知识边缘图中的静态多关系数据。然而,实体之间的关系或属性通常也具有时间特征。忽视这些时间特征经常会导致对齐错误。与研究时序知识图谱中的实体对齐相比,跨语言时序知识图谱中的实体对齐方面的工作相对较少。因此,在本文中,我们提出了一种跨语言时序知识图的实体对齐方法,即CTEA。CTEA在GCN和TransE的基础上,将实体嵌入、关系嵌入和属性嵌入相结合,设计了联合嵌入模型,更有
2024-08-23 20:51:58
975
原创 服务器备份
FreeFileSync + freeSSHd + Windows任务计划程序:设置文件备份方案(双向同步、镜像同步、更新同步、自定义同步)
2024-08-22 23:00:25
1290
原创 openai whisper使用
Whisper是一种通用的语音识别模型。它是在大量不同音频数据集上训练的,也是一个多任务模型,可以执行多语言语音识别、语音翻译和语言识别。
2024-08-21 22:37:24
1642
原创 ZeroEA阅读笔记
实体对齐(EA)是知识图(KG)研究中的一项关键任务,旨在识别不同知识图谱中的等效实体,以支持知识图谱集成、文本到SQL和问答系统等下游任务。考虑到KG中丰富的语义信息,预训练语言模型(PLM)凭借其卓越的上下文感知编码功能,在EA任务中展现出了良好的前景。然而,当前基于PLM的解决方案遇到了一些障碍,例如需要大量培训、昂贵的数据注释以及结构信息的结合不足。在本研究中,我们引入了一种新颖的零训练EA框架ZeroEA,它可以有效地捕获PLM的语义和结构信息。
2024-08-20 15:51:07
738
原创 ZeroEA论文翻译
实体对齐(EA)是知识图(KG)研究中的一项关键任务,旨在识别不同知识图谱中的等效实体,以支持知识图谱集成、文本到 SQL 和问答系统等下游任务。考虑到 KG 中丰富的语义信息,预训练语言模型 (PLM) 因其卓越的上下文感知编码能力而在 EA 任务中显示出前景。然而,当前基于 PLM 的解决方案遇到了一些障碍,例如需要大量培训、昂贵的数据注释以及结构信息的结合不足。在本研究中,我们引入了一种新颖的零训练 EA 框架 ZeroEA,它可以有效地捕获 PLM 的语义和结构信息。
2024-08-19 15:49:53
583
原创 PI-GNN论文翻译.md
基于参数隔离的动态图的持续学习许多现实世界的图学习任务需要处理出现新节点和边的动态图。动态图学习方法通常会遇到灾难性遗忘问题,即先前图学到的知识会被新图的更新覆盖。为了缓解这个问题,提出了连续图学习方法。然而,现有的连续图学习方法旨在学习新模式并使用同一组固定大小的参数维护旧模式,因此面临两个目标之间的基本权衡。在本文中,我们提出了参数隔离 GNN(PI-GNN),用于动态图的持续学习,通过参数隔离和扩展来规避权衡。我们的动机在于不同的参数有助于学习不同的图形模式。基于这个想法,我们扩展模型参数以不断学习新
2024-08-09 16:55:31
669
1
原创 OCR调研
OCR(Optical Character Recognition,光学字符识别)是一种将图像中的文字转换为计算机可处理格式的技术。OCR技术经历了从传统OCR到基于深度学习的OCR的转变。深度学习OCR技术通过模拟人脑神经元结构处理文本和图像数据,相较于传统OCR,在复杂场景下的识别性能和速度有显著提升。它在金融、保险、医疗、交通、教育等多个行业中有广泛应用,并随着人工智能技术的发展,OCR技术的性能不断提升,应用场景也日益复杂化。
2024-08-09 16:45:06
1249
原创 InCDE论文翻译
传统的知识图嵌入(KGE)方法通常需要在新知识出现时保留整个知识图(KG),这会带来巨大的训练成本。为了解决这个问题,提出了连续知识图嵌入(CKGE)任务,通过有效地学习新兴知识,同时保留适当的旧知识来训练 KGE 模型。然而,知识图谱中的显式图结构对于实现上述目标至关重要,但却被现有的 CKGE 方法严重忽略。一方面,现有方法通常以随机顺序学习新的三元组,破坏了新知识图谱的内部结构。另一方面,旧的三元组被同等优先地保留,未能有效缓解灾难性遗忘。
2024-08-09 16:39:37
1482
原创 PUMA论文阅读
在处理流图时,现有的图表示学习模型会遇到灾难性的遗忘问题,当使用新传入的图进行学习时,先前学习的这些模型的知识很容易被覆盖。作为回应,持续图学习(CGL)作为一种新颖的范式出现,能够实现从静态图到流图的图表示学习。我们之前的工作 Condense and Train (CaT)是一个基于重放的 CGL 框架,具有平衡的持续学习过程,它设计了一个小而有效的内存库,用于通过压缩传入的图来重放数据。
2024-08-08 20:58:46
896
1
原创 SelfKG论文翻译
实体对齐旨在识别不同知识图谱(KG)中的等效实体,是构建网络规模知识图谱的基本问题。在其发展过程中,标签监督被认为是准确对准所必需的。受到自监督学习最近进展的启发,我们探索了在多大程度上可以摆脱实体对齐的监督。通常,标签信息(正实体对)用于监督将每个正实体对中对齐的实体拉近的过程。然而,我们的理论分析表明,实体对齐的学习实际上可以通过将未标记的负对相互远离而不是拉近标记的正对来受益更多。通过利用这一发现,我们开发了实体对齐的自我监督学习目标。
2024-05-29 17:12:28
990
原创 DuGa-DIT论文翻译
双门控图注意力网络与跨语言实体对齐的动态迭代训练近年来,跨语言实体对齐引起了相当大的关注。过去使用传统方法来匹配实体的研究都有一个共同的问题,即在建模过程中遗漏了实体之外的重要结构信息。这使得图神经网络模型可以介入。大多数现有的图神经网络方法分别对个体知识图(KG)进行建模,并使用少量预先对齐的实体作为锚点来连接不同的知识图谱嵌入空间。,然而,这一特性可能会导致几个主要问题,包括由于可用种子对齐不足而导致的性能限制以及对节点之间上下文信息有用的预对齐链接的忽略。在本文中,我们提出了 DuGa-DIT,一种具
2024-05-28 15:38:41
1267
原创 CaT阅读笔记
持续图学习(CGL)的目的是通过以流方式输入图数据来持续更新图模型。由于模型在使用新数据进行训练时很容易忘记以前学到的知识,因此灾难性遗忘问题一直是 CGL 的主要关注点。最近的基于重放的方法旨在通过使用(1)整个新出现的数据和(2)基于采样的内存库来更新模型来解决这个问题,该内存库存储重放的图以近似历史数据的分布。更新模型后,从传入图形中采样的新重放图形将被添加到现有的内存库中。尽管这些方法对于 CGL 来说直观且有效,但本文还是指出了两个问题。
2024-05-20 14:50:18
1167
原创 ContEA阅读笔记
实体对齐是知识图谱(KG)集成中一项基本且重要的技术。多年来,实体对齐的研究一直基于知识图谱是静态的假设,忽略了现实世界知识图谱增长的本质。随着知识图谱的增长,之前的对齐结果需要重新审视,同时新的实体对齐等待被发现。在本文中,我们提出并深入研究了一个现实但尚未探索的环境,称为持续实体对齐。为了避免每当新实体和三元组出现时在整个 KG 上重新训练整个模型,我们为此任务提出了一种持续对齐方法。它根据实体邻接关系重建实体的表示,使其能够使用现有邻居快速、归纳地生成新实体的嵌入。
2024-05-06 19:14:41
1232
原创 Dual-AMN论文阅读
寻找多源知识图谱(KG)中的等效实体是知识图谱集成的关键步骤,也称为实体对齐(EA)。然而,大多数现有的 EA 方法效率低下且可扩展性差。最近的总结指出,其中一些甚至需要几天的时间来处理包含 200000 个节点(DWY100K)的数据集。我们认为过度复杂的图编码器和低效的负采样策略是两个主要原因。在本文中,我们提出了一种新颖的知识图谱编码器——双重注意力匹配网络(Dual-AMN),它不仅可以智能地对图内和跨图信息进行建模,而且还大大降低了计算复杂度。
2024-04-17 17:34:44
1651
1
原创 Dual-AMN论文翻译
寻找多源知识图谱(KG)中的等效实体是知识图谱集成的关键步骤,也称为实体对齐(EA)。然而,大多数现有的 EA 方法效率低下且可扩展性差。最近的总结指出,其中一些甚至需要几天的时间来处理包含 200000 个节点(DWY100K)的数据集。我们认为过度复杂的图编码器和低效的负采样策略是两个主要原因。在本文中,我们提出了一种新颖的知识图谱编码器——双重注意力匹配网络(Dual-AMN),它不仅可以智能地对图内和跨图信息进行建模,而且还大大降低了计算复杂度。
2024-04-14 13:55:07
985
原创 RREA论文阅读
实体对齐旨在识别来自不同知识图谱(KG)的等效实体对,这对于集成多源知识图谱至关重要。最近,随着 GNN 在实体对齐中的引入,近期模型的架构变得越来越复杂。我们甚至在这些方法中发现了两个反直觉的现象:(1)GNN 中的标准线性变换效果不佳。(2)许多为链接预测任务设计的先进知识图谱嵌入模型在实体对齐方面表现不佳。在本文中,我们将现有的实体对齐方法抽象为一个统一的框架,它不仅成功地解释了上述现象,而且导出了理想变换操作的两个关键标准。
2024-04-12 10:49:39
1260
1
原创 RREA论文翻译
关系反射实体对齐实体对齐旨在识别来自不同知识图谱(KG)的等效实体对,这对于集成多源知识图谱至关重要。最近,随着 GNN 在实体对齐中的引入,近期模型的架构变得越来越复杂。我们甚至在这些方法中发现了两个反直觉的现象:(1)GNN 中的标准线性变换效果不佳。(2)许多为链接预测任务设计的先进知识图谱嵌入模型在实体对齐方面表现不佳。在本文中,我们将现有的实体对齐方法抽象为一个统一的框架Shape-Builder&Alignment,它不仅成功地解释了上述现象,而且导出了理想变换操作的两个关键标准。此外,我们提出
2024-04-11 17:00:35
986
原创 PageRank论文翻译
网页的重要性本质上是一个主观问题,取决于读者的兴趣、知识和态度。但关于网页的相对重要性,仍然有很多可以客观地说的地方。本文介绍了PageRank,一种客观、机械地对网页进行评级的方法,有效地衡量人们对网页的兴趣和关注度。我们将 PageRank 与理想化的随机网络冲浪者进行比较。我们展示了如何有效地计算大量页面的 PageRank。并且,我们还将展示如何将 PageRank 应用到搜索和用户导航中。
2024-04-10 22:56:59
1550
原创 Node2Vec论文翻译
网络中节点和边缘的预测任务需要在学习算法使用的工程特征上付出仔细的努力。最近在更广泛的表示学习领域的研究通过学习特征本身在自动化预测方面取得了重大进展。然而,目前的特征学习方法的表现力不足以捕获网络中观察到的连接模式的多样性。在这里,我们提出了node2vec,一种用于学习网络中节点的连续特征表示的算法框架。在node2vec中,我们学习节点到低维特征空间的映射,最大化保留节点网络邻域的可能性。我们定义了节点网络邻居的灵活概念,并设计了一个有偏差的随机游走程序,可以有效地探索不同的邻居。
2024-04-09 20:51:37
1498
原创 DeepWalk论文翻译
我们提出了 DeepWalk,一种学习网络中顶点潜在表示的新方法。这些潜在表示在连续向量空间中对社会关系进行编码,很容易被统计模型利用。DeepWalk 概括了语言建模和无监督特征学习(或深度学习)从单词序列到图形的最新进展。DeepWalk 使用从截断随机游走获得的局部信息,通过将游走视为句子的等价物来学习潜在表示。我们在 BlogCatalog、Flickr 和 YouTube 等社交网络的多个多标签网络分类任务上展示了 DeepWalk 的潜在表示。
2024-04-04 20:57:49
1177
原创 ContEA论文翻译
实体对齐是知识图谱(KG)集成中一项基本且重要的技术。多年来,实体对齐的研究一直基于知识图谱是静态的假设,忽略了现实世界知识图谱增长的本质。随着知识图谱的增长,之前的对齐结果需要重新审视,同时新的实体对齐等待被发现。在本文中,我们提出并深入研究了一个现实但尚未探索的环境,称为持续实体对齐。为了避免每当新实体和三元组出现时在整个 KG 上重新训练整个模型,我们为此任务提出了一种持续对齐方法。它根据实体邻接关系重建实体的表示,使其能够使用现有邻居快速、归纳地生成新实体的嵌入。
2024-04-03 20:12:25
681
原创 CaT论文翻译
持续图学习(CGL)的目的是通过以流方式输入图数据来持续更新图模型。由于模型在使用新数据进行训练时很容易忘记以前学到的知识,因此灾难性遗忘问题一直是 CGL 的主要关注点。最近的基于重放的方法旨在通过使用(1)整个新出现的数据和(2)基于采样的内存库来更新模型来解决这个问题,该内存库存储重放的图以近似历史数据的分布。更新模型后,从传入图形中采样的新重放图形将被添加到现有的内存库中。尽管这些方法对于 CGL 来说直观且有效,但本文还是指出了两个问题。
2024-03-31 22:08:20
1064
原创 RDGCN阅读笔记
实体对齐是从不同的知识图(KGs)中链接具有相同真实世界实体的任务,最近被基于嵌入的方法所主导。这种方法通过学习KG表示来工作,以便可以通过测量实体嵌入之间的相似性来执行实体对齐。虽然有希望,但该领域的现有工作往往不能很好地捕获多关系KGs中常见的复杂关系信息,留下了很大的改进空间。本文提出了一种新的关系感知双图卷积网络(RDGCN),通过知识图与其对偶关系副本之间的密切交互来融合关系信息,并进一步捕获邻域结构以学习更好的实体表示。
2024-03-30 11:37:43
1281
原创 MTransE阅读笔记
最近的许多工作已经证明了知识图谱嵌入在完成单语知识图谱方面的好处。由于相关的知识库是用几种不同的语言构建的,因此实现跨语言知识对齐将有助于人们构建连贯的知识库,并帮助机器处理不同人类语言之间实体关系的不同表达。不幸的是,通过人工实现这种高度期望的跨舌对齐是非常昂贵且容易出错的。因此,我们提出了MTransEMTransEMTransE,一个基于推理的多语言知识图谱嵌入模型,以提供一个简单和自动化的解决方案。通过在单独的嵌入空间中编码每种语言的实体和关系,MTransE。
2024-03-28 20:39:19
1160
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人