使用Python解析pdf、docx等格式文件。

原创

已于 2024-09-12 21:27:14 修改 · 852 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#python #pdf #linux

于 2024-08-08 13:12:14 首次发布

针对不同类型的文件，需要采取特定的访问与解析策略来有效获取其中蕴含的知识。下面我们将介绍对于不同数据源数据的获取方式。

1 解析Docx文档

1.1 获取Docx文档中文本

from docx import Document
# pip install python-docx
# python-docx == 0.8.11
filename = 'xxx.docx'
doc = Document(filename)
for para in doc.paragraphs:
    print(para.text)

1.2 获取Docx文档中表格

from docx import Document
filename = r'sample.docx'
doc = Document(filename)
print(f"\n 便利文档中表格：")
print(f"\n 方法一：")
for table in doc.tables:
    row_count = len(table.rows)
    col_count = len(table.columns)
    for i in range(row_count):
        row = table.rows[i].cells
        print(f"row : {
     
     row}")
print