本文主要是归纳整理了王昊奋《知识图谱:方法、实践与应用》这本书里有关知识抽取的非结构化数据抽取的部分。
知识抽取任务定义
概念
知识抽取的概念最早是20世界70年代后期出现在自然语言处理领域的,它是指自动化地从文本中发现和抽取相关信息,并将多个文本碎片中的信息进行合并,将非结构化数据转换为结构化数据。 具体是什么意思呢,我们看一个例子。
这是一段关于苹果公司的介绍文字,它是属于非结构化数据,通过知识抽取,我们可以把它转换成右边的这种结构化数据,我们可以直观的了解到苹果公司的总部地址、创始人、创立时间这三个方面的信息。关于什么是结构化数据,非结构化数据,我一会儿会介绍。
目的
那我们为什么要进行知识抽取呢,我们的主要目的就是从不同来源、不同结构的数据中进行知识提取再把他们存入知识图谱中。
这张图表示的就是三种不同类型的数据通过各自不同的方法进行抽取后存入知识图谱的情况。
数据源
三种类型的数据有不同的特点,因此也有不同的抽取方法,所以我们先看看这三种类型是什么意思? 如图所示
子任务
那一般情况下的知识抽取会有哪些步骤呢,我们大体可以分类三个方面。
第一是实体抽取,它就是从文本中检测出命名实体,再将它分类到预定义的类别中,比如这个实体是属于人物类,或者组织类,或者地点类等等。
第二是关系抽取,它是要从文本中识别抽取到实体与实体之间的关系。
第三是事件抽取,主要是从文本中识别关于事件的信息,并以结构化的形式呈现。那这是什么意思呢,就比如我们可以从一条新闻报道中识别到这件事情发生的时间、地点、人物等信息。
面向非结构化数据的知识抽取
实体抽取
首先是实体抽取,它又叫命名实体识别,它是要从文本中抽取实体信息元素,我们需要先从文本中识别和定位实体,然后再将识别的实体分类到预定义的类别中去。 用一个例子来简单说明一下,就比如下面这句话,我们可以识别到北京,这是属于地点的实体,10月25日,这是