统一大型语言模型和知识图谱:路线图

本文聚焦大型语言模型(LLM)和知识图谱(KGs)的统一。LLM有涌现能力但难捕捉事实知识,KGs显式存储知识却构建演化难。文章提出统一的前瞻性路线图,涵盖KG增强的LLM、LLM增强的KG和协同LLM+KGs三个框架,还回顾现有研究并指出未来方向。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

【摘要】


大型语言模型(LLM),如ChatGPT和GPT4,由于其涌现能力和泛化性,正在自然语言处理和人工智能领域掀起新的浪潮。然而,LLM是黑箱模型,通常无法捕捉和获取事实知识。相反,知识图谱(KGs),例如维基百科和华普,是显式存储丰富事实知识的结构化知识模型。KGs可以通过为推理和可解释性提供外部知识来增强LLM。同时,KGs很难从本质上构建和演化,这对KGs中现有的生成新事实和表示未知知识的方法提出了挑战。因此,将LLM和KGs统一在一起并同时利用它们的优势是相辅相成的。在本文中,我们提出了LLM和KGs统一的前瞻性路线图。我们的路线图由三个通用框架组成,即:1)KG增强的LLM,它在LLM的预训练和推理阶段纳入了KG,或者是为了增强对LLM所学知识的理解;2) LLM增强的KG,利用LLM执行不同的KG任务,如嵌入、补全、构建、图到文(graph-to-text)生成和问答;以及3)协同LLM+KGs,其中LLM和KGs扮演着平等的角色,并以互利的方式工作,以增强LLM和KG,实现由数据和知识驱动的双向推理。我们在路线图中回顾和总结了这三个框架内的现有努力,并确定了它们未来的研究方向。


【笔记】


1【Introduction】


(1)KGs vs LLMs


(2)Contribution


路线图。我们提出了整合LLMs和KGs的前瞻性路线图。我们的路线图由三个统一LLM和KG的通用框架组成,即KG增强的LLM、LLM增强的KG和协同的LLM+KG,为这两种不同但互补的技术的统一提供了指导方针。
分类和审查。对于我们路线图的每个整合框架,我们提出了统一LLMs和KGs的详细分类和新的研究分类法。在每个类别中,我们从不同的整合策略和任务的角度回顾了研究,这为每个框架提供了更多的见解。
新进展的报道。我们涵盖LLMs和KGs的先进技术。我们包括对最先进的LLMs(如ChatGPT和GPT-4)以及新的KGs(如多模态知识图谱)的讨论。
挑战和未来方向概述。我们强调了现有研究中的挑战,并提出了几个有前景的未来研究方向。


2【Background】


(1)LLMs


现有的LLMs可以分为
1)Encoder-only LLMs:
仅编码器LLM,如BERT[1]、ALBERT[51]、RoBERTa[2]和ELECTRA[52],需要添加额外的预测头来解决下游任务。
2)Encoder-Decoder LLMs:
例如,T5[3]是通过掩蔽和预测掩蔽词的跨度来预训练的。UL2[55]统一了几个训练目标,例如不同的掩蔽跨度和掩蔽频率。编码器-解码器LLM(例如T0[56]、ST-MoE[57]和GLM-130B[58])能够直接解决基于某些上下文生成句子的任务,例如总结、翻译和问答。
3)Decoder-only LLMs:
这些模型的训练范式是预测句子中的下一个单词。
Prompt engineering:
提示可以包含几个元素,即1)指令(instruction)、2)上下文(context)和3)输入文本(input text)。指令是指示模型执行特定任务的短句。上下文为输入文本或少样本示例提供上下文。输入文本是需要由模型处理的文本。


(2)KGs


现有的KGs可以分为
1) 百科KGs:
Wikidata[20]是使用最广泛的百科全书式知识图之一,它包含了从维基百科上的文章中提取的各种知识。其他典型的百科全书式知识图,如Freebase[67]、Dbpedia[68]和YAGO[31],也源自维基百科。此外,NELL[32]是一个不断改进的百科全书式知识图,它自动从网络中提取知识,并随着时间的推移使用这些知识来提高其性能。有几种百科全书式的知识图谱以英语以外的语言提供,如CN-DBpedia[69]和Vikidia[70]。最大的知识图名为knowledge Occean(KO)7,目前包含487843636个实体和1731158349个中英文关系。
2)常识KGs:
ConceptNet[72]包含了广泛的常识性概念和关系,可以帮助计算机理解人们使用的单词的含义。ATOMIC[73]、[74]和ASER[75]关注事件之间的因果效应,可用于常识推理。其他一些常识性知识图,如TransOMCS[76]和CausalBanK[77],是自动构建的,以提供常识性知识。
3)领域特定KGs:
例如,UMLS[78]是医学领域中的特定领域知识图谱,它包含生物医学概念及其关系。
4)多模态KGs:
例如,IMGpedia[85]、MMKG[86]和Richpedia[87]将文本和图像信息合并到知识图谱中。这些知识图谱可用于各种多模态任务,如图像文本匹配[88]、视觉问答[89]和推荐[90]。


Application:


3【Roadmap & Categorization】

  • Roadmap


4【KG-enhanced LLMs】

KG增强的LLM预训练

以往将KGs集成到大型语言模型中的工作可分为三部分:1)将KGs整合到训练目标中,2)将KGs整合到LLM输入中,3)通过额外的融合模块整合KGs。


1)将KGs整合到训练目标


这一类别的研究工作侧重于设计新颖的知识意识培训目标。一个直观的想法是在预培训目标中暴露更多的知识实体。GLM[105]利用知识图结构来分配掩蔽概率。具体来说,在一定数量的跳内可以到达的实体被认为是学习中最重要的实体,在预训练时给定一个更高的掩蔽概率。
此外,E-BERT[106]进一步控制了令牌级和实体级训练损失之间的平衡。训练损失值被用作令牌和实体的学习过程的指示,该学习过程动态地确定它们在下一个训练时期的比率。SKEP[104]也遵循类似的融合,在LLM预训练期间注入情感知识。SKEP首先通过利用PMI以及预定义的种子情绪词集合来确定具有积极情绪和消极情绪的词。然后,它将更高的掩蔽概率分配给单词掩蔽目标中识别的情感单词。
另一路工作明确地利用了与知识和输入文本的联系。如图9所示,ERNIE[91]提出了一种新的词-实体对齐训练目标作为预训练目标。具体来说,ERNIE将文本中提到的句子和相应的实体都输入到LLM中,然后训练LLM来预测文本标记和知识图中实体之间的对齐链接。类似地,KALM[92]通过结合实体嵌入来增强输入令牌,并且除了仅令牌的预训练目标之外还包括实体预测预训练任务。这种方法旨在提高LLM获取与实体相关知识的能力。最后,KEPLER[131]将知识图嵌入训练目标和掩蔽令牌预训练目标直接应用到基于共享变换器的编码器中。确定性LLM[107]专注于预训练语言模型,以获取确定性事实知识。它只掩盖了具有确定性实体的跨度作为问题,并引入了额外的线索对比学习和线索分类目标。WKLM[109]首先用其他相同类型的实体替换文本中的实体,然后将它们馈送到LLM中。对模型进行进一步的预训练,以区分实体是否已被替换。


2)将KGs整合到LLM输入


为了解决知识噪声问题,K-BERT[36]采取了第一步,通过可见矩阵将知识三元组注入句子中,其中只有知识实体可以访问知识三元组信息,而句子中的标记只能在自注意模块中看到彼此。为了进一步减少知识噪声,Colake[110]提出了一个统一的单词知识图(如图10所示),其中输入句子中的标记形成了一个完全连接的单词图,其中与知识实体对齐的标记与其相邻实体连接。
上述方法确实可以为LLM注入大量的知识。然而,他们大多关注热门实体,而忽略了低频率和长尾实体。DkLLM[111]旨在改进针对这些实体的LLM表示。DkLLM首先提出了一种新的测量方法来确定长尾实体,然后用伪令牌嵌入来替换文本中的这些选定实体,作为大型语言模型的新输入。此外,Dict-BERT[112]建议利用外部词典来解决这个问题。具体而言,Dict-BERT通过在输入文本的末尾附加字典中的稀有词定义来提高稀有词的表示质量,并训练语言模型以局部对齐输入句子和字典定义中的稀有单词表示,以及区分输入文本和定义是否正确映射。、
3)通过额外的融合模块整合KGs

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值