Word文档内容提取器

原创于 2025-06-24 10:03:22 发布 · 473 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#word

Python读取Word文档代码解析

这段代码使用Python的python-docx库来读取Word文档(.docx文件)的内容，包括普通段落文本和表格内容。下面我将详细解释代码的每个部分，并举例说明。

代码解析

from docx import Document

导入python-docx库中的Document类，这是操作Word文档的主要入口

def read_docx(file_path):

定义一个名为read_docx的函数，接收一个文件路径参数file_path

    doc = Document(file_path)

使用Document类加载指定路径的Word文档

    for para in doc.paragraphs:
        print(para.text)

遍历文档中的所有段落(paragraphs)
打印每个段落的文本内容

    for table in doc.tables:
        for row in table.rows:
            for cell in row.cells:
                print(cell.text, end=' | ')
            print()

遍历文档中的所有表格(tables)
对于每个表格，遍历其所有行(rows)
对于每行，遍历其所有单元格(cells)
打印单元格内容，单元格之间用" | "分隔
每行结束后换行

file_path = './data/test_word.docx'
read_docx(file_path)

指定要读取的Word文档路径
调用read_docx函数处理该文档

示例说明

假设我们有一个名为test_word.docx的Word文档，内容如下：

这是一个测试文档

第一段内容
第二段内容

表格示例：
姓名    | 年龄 | 职业
张三    | 30   | 工程师
李四    | 25   | 设计师

运行上述代码后，输出将是：

这是一个测试文档

第一段内容
第二段内容

表格示例：
姓名 | 年龄 | 职业 | 
张三 | 30 | 工程师 | 
李四 | 25 | 设计师 |

代码特点

段落处理：能够读取文档中的所有段落文本
表格处理：能够识别文档中的表格并以结构化方式输出
格式保留：保留了原始文档中的换行等基本格式
分隔清晰：表格内容用" | "分隔，便于阅读

实际应用场景

这种代码可以用于：

批量处理多个Word文档提取内容
将Word文档内容导入数据库
自动化文档内容分析
文档格式转换的前期处理

扩展建议

如果需要更复杂的处理，可以考虑：

添加异常处理（文件不存在等情况）
将提取的内容保存到变量而不仅仅是打印
处理更复杂的文档格式（如页眉页脚、图片等）
添加对文档样式的读取（字体、颜色等）

这个代码提供了一个基础的Word文档读取框架，可以根据实际需求进行扩展和修改。