AGI｜知识治理：直击知识库知识质量与精准检索痛点

原创已于 2025-07-30 11:33:32 修改 · 549 阅读

·

15

·

CC 4.0 BY-SA版权

内容来自于神州数码云基地所有，如需转载请小框私信我们~

文章标签：

#agi #人工智能 #知识治理 #知识库 #神州问学 #Miner-u

于 2025-07-30 11:04:36 首次发布

AGI 专栏收录该内容

76 篇文章

订阅专栏

目录

一、知识库当前面临的痛点

二、解决方案

1.引入大模型时代的文档提取、转换神器—Miner U

2. 版面识别

三、知识治理在“问学平台”的应用实践

一、知识库当前面临的痛点

1、文件类型多样，常规处理方法无法兼容文本、图片、表格、公式等内容，OCR模型能力差，识别不准确；

2、对于上传的知识库文件，无法手动进行编辑、调整分段等操作；

3、对于文档中的图片、复杂表格解析识别不准确；

4、双列排版识别后会丢失语义顺序。

二、解决方案

1.引入大模型时代的文档提取、转换神器—Miner U

Miner U介绍：

MinerU是由上海人工智能实验室OpenDataLab团队开发的开源文档解析工具，旨在解决大模型训练中高质量结构化数据的提取难题。其核心价值在于将PDF、网页、电子书等复杂文档转换为机器可读的Markdown、JSON格式，同时保留原始文档的语义逻辑与多模态元素，显著提升AI语料准备效率。

◼ 主要技术功能：

▪ 语义一致性：支持移除页眉、页脚、脚注、页码等内容，确保语义连贯。

▪ 人类可读性：输出文本按照人类阅读顺序排列，支持单列、多列及复杂布局。

▪ 结构保留：保留原始文档的结构，包括标题、段落、列表等。

▪ 多样化内容提取：支持提取图像、图像描述、表格、表格标题和脚注。

▪ 公式转换：自动识别文档中的公式并转换为LaTeX格式。

▪ 表格转换：自动识别文档中的表格并转换为HTML格式。

▪ OCR功能：自动检测扫描版PDF和乱码PDF，并启用OCR功能。

▪ 多语言支持：OCR功能支持84种语言的检测和识别。

▪ 多种输出格式：支持多模态和NLP Markdown、按阅读顺序排序的JSON以及丰富的中间格式。

▪ 可视化结果：支持布局可视化和跨度可视化，便于高效确认输出质量。

2. 版面识别

知识库上传的文档通过版面识别技术可以准确地识别文档中的文字、图片、表格等元素，并将解析出的元素和关键信息进行结构化存储和展示。

接着可对文档进行知识治理，包含对版面识别的内容进行排序和微调。

3.分段调整

知识库文档先选择自动或自定义切片器进行分段后，支持用户在此分段的基础上进行手动调整分段，包括“取消分段”、“添加分段”、“修改分段”。

三、知识治理在“问学平台”的应用实践

1.以知识治理在企业供应链管理中的应用为例，展示知识治理后提升了检索精准度

未进行知识治理的效果：当AI应用挂载未经知识治理的文件时，AI应用无法根据知识库实现准确回答

进行知识治理的效果：当AI应用挂载经过知识治理的同一文件后，AI应用可以按照知识治理成果进行回答

2.以财务发票为例，展示对版面识别的内容进行微调后提升了检索精准度

未进行知识治理的效果：当AI应用挂载未对版面识别的内容进行微调过的发票时，AI应用无法根据知识库实现准确回答

进行知识治理的效果：当AI应用挂载对版面识别的内容进行了微调的发票时，AI应用可以根据知识库实现准确回答

四、知识治理适用场景

版权声明:本文由神州数码云基地团队整理撰写，若转载请注明出处。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。