思维导图
课程内容
1. 课程定位与总体目标
本课程系统讲解了面向企业级检索增强生成(RAG)应用的数据工程全链路:
原始数据处理 → 文档转换 → 数据切块(Chunking)→ 父子检索(Parent-Child Retrieval)→ 评估体系与训练数据构建 → 嵌入/重排/大模型微调。
重点强调:RAG 效果 50% 以上取决于数据工程质量;避免将问题简单归因于“模型能力”。
2. 原始数据类型与统一处理目标
原始数据分两大类:
- 非结构化:扫描 PDF、文字版 PDF、Word、Excel、PPT、网页、Markdown、图像、表格、公式、图片、语音/视频(提及但非重点)。
- 结构化 / 半结构化:数据库(SQL)、知识图谱、业务表格(含大量缩写/编码字段)。
统一处理目标:
- 转换为“可检索 + 可追溯”的带元数据 Markdown(推荐)或等价文本格式。
- 保留文本、表格(Markdown Table)、图片链接及描述、公式(保留可解析格式)、必要结构层级。
- 补充 Metadata:文件 ID、来源、业务分类、Chunk 上下文关系等。
附加可选增强:
- 构建知识图谱:仅在结构化关系强、跨实体推理价值高(如核电设备、教育知识点树)时使用;非默认必选。
- 数据库“人类友好化”改造:字段重命名、外键展开、冗余必要可读信息、裁剪无用列。
3. 文档转换三类技术路线
3.1 Pipeline 小模型组合方案
流程:版式/版面结构识别 → 分类(段落/标题/表格/图/公式/水印/印章等)→ OCR → 表格结构解析/单元格合并处理 → 公式识别 → 图表解析(可转数值表)→ 版式/阅读顺序恢复 → 纠错。
代表:PP-StructureV3(PaddleOCR),MinerU 2.0 Pipeline。
优点:
- 可 CPU 运行;组件可替换与针对性微调;定位问题粒度细。
缺点: - 工程胶水代码多、调试与部署复杂;需要一定 CV/模型背景;OCR 仍有错别字。
3.2 通用 VLM(多模态大模型)方案
通过 Few-shot + 强基座模型直接“图 → Markdown”。
优点:
- 识别准确率较高;支持 Few-shot 不训练提升;对复杂表格/跨模态内容友好。
缺点: - 成本高、速度慢;仍需工程封装(图像抽取);存在“主动修改文本”幻觉风险。
3.3 专用 VLM(垂类文档理解模型)
如 GOT-OCR 训练思路、MinerU2.0-2505-0.9B、MonkeyOCR-pro-1.2B、OCRFlux-3B、dots.ocr 等。
特点:
- 针对文档视觉