一.数据集介绍
CDlA数据集介绍:CDLA
CDLA是一个中文文档版面分析数据集,面向中文文献类(论文)场景。包含以下10个label:
数据量:
共包含5000张训练集和1000张验证集,分别在train和val目录下。每张图片对应一个同名的标注文件(.json)。
数据展示:
标注工具是labelme,所以标注格式和labelme格式一致。
数据结构:
train和val里面分别存放图片及标注结果json文件
二. 数据预处理
将json文件转换成txt文件
import json
import os
import argparse
from tqdm import tqdm
import glob
import cv2
import numpy as np
def convert_label_json(json_dir,save_dir,classes):
files=os.listdir(json_dir)
#删选出json文件
jsonFiles=[]
for file in files:
if os.path.splitext(file)[1]==".json":
jsonFiles.append(file)
#获取类型
classes=classes.split(',')
#获取json对应中对应元素
for json_path in tqdm(jsonFiles):
path=os.path.join(json_dir,json_path)
with open(path,'r') as loadFile:
print(loadFile)
json_dict