RAG 数据工程

Shockang

于 2025-09-09 14:37:07 发布

阅读量743

点赞数 32

CC 4.0 BY-SA版权

分类专栏：大模型文章标签：大模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Shockang/article/details/151360352

#『AI先锋杯·14天征文挑战第5期』#

思维导图

在这里插入图片描述

课程内容

1. 课程定位与总体目标

本课程系统讲解了面向企业级检索增强生成（RAG）应用的数据工程全链路：
原始数据处理 → 文档转换 → 数据切块（Chunking）→ 父子检索（Parent-Child Retrieval）→ 评估体系与训练数据构建 → 嵌入/重排/大模型微调。
重点强调：RAG 效果 50% 以上取决于数据工程质量；避免将问题简单归因于“模型能力”。

2. 原始数据类型与统一处理目标

原始数据分两大类：

非结构化：扫描 PDF、文字版 PDF、Word、Excel、PPT、网页、Markdown、图像、表格、公式、图片、语音/视频（提及但非重点）。
结构化 / 半结构化：数据库（SQL）、知识图谱、业务表格（含大量缩写/编码字段）。

统一处理目标：

转换为“可检索 + 可追溯”的带元数据 Markdown（推荐）或等价文本格式。
保留文本、表格（Markdown Table）、图片链接及描述、公式（保留可解析格式）、必要结构层级。
补充 Metadata：文件 ID、来源、业务分类、Chunk 上下文关系等。

附加可选增强：

构建知识图谱：仅在结构化关系强、跨实体推理价值高（如核电设备、教育知识点树）时使用；非默认必选。
数据库“人类友好化”改造：字段重命名、外键展开、冗余必要可读信息、裁剪无用列。

3. 文档转换三类技术路线

3.1 Pipeline 小模型组合方案

在这里插入图片描述

流程：版式/版面结构识别 → 分类（段落/标题/表格/图/公式/水印/印章等）→ OCR → 表格结构解析/单元格合并处理 → 公式识别 → 图表解析（可转数值表）→ 版式/阅读顺序恢复 → 纠错。
代表：PP-StructureV3（PaddleOCR），MinerU 2.0 Pipeline。
优点：

可 CPU 运行；组件可替换与针对性微调；定位问题粒度细。
缺点：
工程胶水代码多、调试与部署复杂；需要一定 CV/模型背景；OCR 仍有错别字。

3.2 通用 VLM（多模态大模型）方案

在这里插入图片描述

通过 Few-shot + 强基座模型直接“图 → Markdown”。
优点：

识别准确率较高；支持 Few-shot 不训练提升；对复杂表格/跨模态内容友好。
缺点：
成本高、速度慢；仍需工程封装（图像抽取）；存在“主动修改文本”幻觉风险。

3.3 专用 VLM（垂类文档理解模型）

在这里插入图片描述

如 GOT-OCR 训练思路、MinerU2.0-2505-0.9B、MonkeyOCR-pro-1.2B、OCRFlux-3B、dots.ocr 等。
特点：

针对文档视觉

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。