一、基本介绍
Unstructured-IO/unstructured是一个开源的Python库,致力于将非结构化文档(PDF、HTML、Word等)转换为可用于机器学习的结构化数据。项目由Unstructured Technologies团队维护,截至2023年已获得GitHub 5.8K星标,成为文档预处理领域的热门工具。
核心功能
- 多格式支持:覆盖PDF、DOCX、PPTX、HTML等50+文件类型
- 元素提取:智能识别文本段落、表格、图片等文档元素
- 元数据保留:保持页面编号、文件路径等上下文信息
- 输出标准化:支持JSON、CSV、Pandas DataFrame等多种输出格式
架构特点
项目目录结构核心模块:
├── unstructured
│ ├── partition # 文件解析入口
│ ├── staging # 数据格式转换
│ ├── documents # 元素类型定义
│ ├── ingest # 数据管道工具
│ └── metrics # 处理质量评估