1:下载paddleocr
develop和release分支都可以,这里以release为例
下载地址:https://github.com/PaddlePaddle/PaddleOCR
paddleocr项目结构如下
2:跟其他框架一样,我们只需要标注好数据然后配置yml文件,就可以正常训练模型了
首先需要进行数据标注,打开自带的标注工具PPOCRLabel
cd .\PPOCRLabel\
python .\PPOCRLabel.py --lang ch
注意:
1:标注完成后选择文件-导出标注结果,原图和Label.txt在det训练时要用到,这个默认保存的Simpledata格式,不需要转换,只需要分割数据集
2:标注完成后选择文件-导出识别结果,分割出的文字轮廓图像和rec_gt.txt在rec训练时用到,这种需要转换,在使用icdar15数据集不需要,使用mv3时需要转为LMDB格式
3:LMDB转换
使用下述代码进行转换,
数据路径如下