1、基本概念:
狭义:特指一类知识表示,本质上是一种大规模语义网络,包含实体、概念及其之间的各种语义关系。
广义:大数据时代知识工程一系列技术的总称,在一定程度上指代大数据知识工程这一新兴学科。
狭义概念:
知识图谱是一种大规模语义网络。两个要点:大规模,语义网络。语义网络是知识图谱的本质,大规模是其与传统语义网络的根本区别。
语义网络:一种以图形化的形式通过点和边表达知识的方式,其基本组成元素是点和边。点可以是实体、概念、值,边分为属性与关系两类。
点
实体(对象、实例):实体是属性赖以存在的基础,并且必须是自在的,即独立的。不依附于其他东西而存在的。(如“身高”单独存在没有意义,必须指明是某人的身高,这才是有明确所指且有意义的)
概念(类别、类):类比一种模板,指一类。
值:每个实体都有一定的属性值。(如:我的年龄是23岁,我的出生年份为2002年)
边
属性:描述实体某方面的特性、(如:人的身高、出生日期、体重)
关系:关系是特殊的属性,当实体的某个属性值也是一个实体时,这个属性实质上就是关系。(如:我的父亲是一个特定的人物实体,“父亲”可以认为是一条关系)
由上述五个概念引出,将边由两端节点类型分类。
概念之间的边:子类关系(subclassOf)
实体与概念之间:实例关系(instanceOf)
实体之间:各种属性与关系(Property)
知识图谱与传统语义网络的区别
前文提到,知识图谱与传统语义网络区别在于,其规模巨大,除此之外还体现在其语义丰富、质量精良、结构友好等特性上。
规模巨大很好理解。例如,最早的Google知识图谱在2012年发布之初就有近5e个实体,10e多条关系。知识图谱因其规模巨大而被认为是大知识的典型代表。
语义丰富体现在两个方面。一是其包含各类语义关系;二是其语义关系建模多样,一个语义关系可以被赋予权重或概率。
质量精良:大数据的多远特性使得我们可以通过多个来源验证简单事实,同时众包平台出现也有利于实现大规模知识验证。
结构友好:采用三元组表示。三元组可以借助RDF(Resource Description Framework)表示。RDF介绍
其同样存在缺点:高质量模式确实,封闭世界假设不成立,大规模自动化知识获取前期等。
广义概念
知识工程:以开发专家系统为主要内容,以让机器使用专家知识以及推理能力解决实际问题为主要目标的人工智能子领域。
知识图谱的诞生,宣告知识工程进入大数据时代。知识工程中一个突出的问题是:如何在计算机中表示知识,由此引申出“知识表示”这一任务,而知识表示的一个重要方式就是知识图谱,其侧重用关联的方式表达实体与概念之间的语义关系。
除此之外,知识表示的方式还有很多,如谓词逻辑、产生式规则、本体、框架、决策树、贝叶斯网络、马尔科夫逻辑网等。
2、知识图谱历史沿革
传统知识工程
传统知识工程用于解决简单问题,解决的问题普遍具有规则明确、应用封闭的特点。其严重依赖于人的干预:领域专家将业务知识表达->知识工程师将知识形式化,转换为计算机能够处理的结构与形式->用户反馈用于持续改进专家系统
局限性:隐性知识与过程知识等难以表达,知识表达存在主观性,知识难以完备,知识更新困难。
大数据知识工程
互联网与大数据应用催生了知识图谱。在大数据时代,数据、算力、模型飞速发展,使得大规模自动化知识获取成为可能。同时众包技术发展,使得知识的规模化验证成为可能。同时高质量用户增加,他们的生成内容提供了高质量知识库来源。
3、知识图谱的研究意义与应用价值
其为认知智能提供基础。主要体现在:使能机器语言认知,赋能可解释人工智能,增强机器学习能力。
其应用广泛,在数据分析、搜索、智能推荐、人机交互、决策等多方面都有应用价值。
4、知识图谱分类
根据涵盖知识分类:事实知识,概念知识,词汇知识,常识知识。
近些年,知识图谱的研究与应用更多的从通用领域转向特定领域和特定行业。可以从知识表示层面的广度、深度、粒度来考察。