Python一些可能用的到的函数系列97 读取特定后缀的文件列表

该函数用于读取指定文件夹中的.md文件内容,并将其转换为字典列表,便于批量上传到ES。内容包括文件标题、内容和元数据。由于ES外部端口不可用,文件先通过rsync命令同步到目标主机后再进行处理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

说明

ES和接口服务做好,现在就可以把之前的文档(主要是md)都批量上传。这个函数主要是提取一个文档下md文件的列表文件,经过简单加工就可以存入es。

内容

函数内容

import os 

# 给定一个文件夹,读取指定后缀(默认md)文件的内容。返回字典列表ListOfElements 
def read_doc_for_es(some_folder ='./',  suffix = '.md'):
    res_list = []
    cand_list = os.listdir(some_folder)
    cand_list1 = [x for x in cand_list if x.endswith(suffix)]

    # 如果cand_list1有才会循环,只有循环时才会附加结果
    for x in cand_list1:
        tem_dict = {}
        with open(some_folder + x ,'r') as f:
            tem_dict['title'] = x
            tem_dict['content'] = f.read()
            tem_dict['meta'] = some_folder
        res_list.append(tem_dict)
    return res_list

使用


In [5]: read_doc_for_es(some_folder=test_path)
Out[5]:
[{'title': 'doc_004接口文档_表格ocr接口.md',
  'content': '# 接口文档(表格ocr)v1\n\n---\n\n> 本接口的作用是以实时的方式对输入的数据进行表格ocr,即:通过接口提交要解析的数据,即时返回结果。\n\nNote:本接口是基于无边框的表格(白底黑字)开发的,对有非标的表格识别准确率会有所下降。\n\n## 1 请求地址\n\n\n- POST 主地址\n    + 1 解析无边

....
  

由于es暂不提供外网端口,所以先执行rsync命令,将文件先增量同步到对应的主机再通过这个函数读取后写入。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值