知识图谱——知识抽取（1）

最新推荐文章于 2025-03-29 22:43:40 发布

流晨

最新推荐文章于 2025-03-29 22:43:40 发布

阅读量5.8k

点赞数 6

CC 4.0 BY-SA版权

分类专栏：知识图谱文章标签：知识图谱

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41828167/article/details/107498038

文章目录

知识抽取任务定义
- 概念
- 目的
- 数据源
- 子任务
面向非结构化数据的知识抽取

本文主要是归纳整理了王昊奋《知识图谱：方法、实践与应用》这本书里有关知识抽取的非结构化数据抽取的部分。

知识抽取任务定义

概念

知识抽取的概念最早是20世界70年代后期出现在自然语言处理领域的，它是指自动化地从文本中发现和抽取相关信息，并将多个文本碎片中的信息进行合并，将非结构化数据转换为结构化数据。具体是什么意思呢，我们看一个例子。
在这里插入图片描述
这是一段关于苹果公司的介绍文字，它是属于非结构化数据，通过知识抽取，我们可以把它转换成右边的这种结构化数据，我们可以直观的了解到苹果公司的总部地址、创始人、创立时间这三个方面的信息。关于什么是结构化数据，非结构化数据，我一会儿会介绍。

目的

那我们为什么要进行知识抽取呢，我们的主要目的就是从不同来源、不同结构的数据中进行知识提取再把他们存入知识图谱中。
在这里插入图片描述

这张图表示的就是三种不同类型的数据通过各自不同的方法进行抽取后存入知识图谱的情况。

数据源

三种类型的数据有不同的特点，因此也有不同的抽取方法，所以我们先看看这三种类型是什么意思？如图所示

在这里插入图片描述

子任务

那一般情况下的知识抽取会有哪些步骤呢，我们大体可以分类三个方面。
第一是实体抽取，它就是从文本中检测出命名实体，再将它分类到预定义的类别中，比如这个实体是属于人物类，或者组织类，或者地点类等等。
第二是关系抽取，它是要从文本中识别抽取到实体与实体之间的关系。
第三是事件抽取，主要是从文本中识别关于事件的信息，并以结构化的形式呈现。那这是什么意思呢，就比如我们可以从一条新闻报道中识别到这件事情发生的时间、地点、人物等信息。

面向非结构化数据的知识抽取

实体抽取

首先是实体抽取，它又叫命名实体识别，它是要从文本中抽取实体信息元素，我们需要先从文本中识别和定位实体，然后再将识别的实体分类到预定义的类别中去。用一个例子来简单说明一下，就比如下面这句话，我们可以识别到北京，这是属于地点的实体，10月25日，这是

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。