手写文字识别:PaddleOCR基于PPOCRv4的垂类场景模型微调

光学字符识别(Optical Character Recognition, OCR),ORC是指对包含文本资料的图像文件进行分析识别处理,获取文字及版面信息的技术,检测图像中的文本资料,并且识别出文本的内容。

在这里插入图片描述
PaddleOCR提供的PP-OCR系列模型在通用场景中性能优异,能够解决绝大多数情况下的检测与识别问题。在垂类场景中,如果希望获取更优的模型效果,可以通过模型微调的方法,进一步提升PP-OCR系列检测与识别模型的精度。

一. 项目背景

目前先进的OCR模型在打印体的识别上已经能获得比较好的效果,但由于手写体的风格各异,提高手写体的识别精度具有比较高的挑战。因此需要基于手写数据微调预训练模型,从而提高手写文字的识别效果。

在这里插入图片描述

二. 环境配置

1. 安装PaddlePaddle 2.0
官网上找到对应版本的PaddlePaddle进行安装。

2.克隆PaddleOCR repo代码
【推荐】git clone https://github.com/PaddlePaddle/PaddleOCR

如果因为网络问题无法pull成功,也可选择使用码云上的托管:git clone https://gitee.com/paddlepaddle/PaddleOCR

注:码云托管代码可能无法实时同步本github项目更新,存在3~5天延时,请优先使用推荐方式。

3. 安装第三方库

cd PaddleOCR
pip3 install -r requirements.txt

三. 数据构造

AIstudio上有开源的手写OCR识别数据集:https://aistudio.baidu.com/datasetdetail/102884,由中科院手写数据集及网上开源数据组合而成。训练共24w,测试1.7w,可直接使用paddleOCR训练。

在实际的场景中,我们往往有针对特定场景的数据,因此需要对数据进行标注和分割。PPOCRLabel内置了OCR模型,可以辅助标注。
PPOCRLabel官方文档:https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.7/PPOCRLabel/README_ch.md

1. 安装与运行PPOCRLabel

Windows

pip install PPOCRLabel  # 安装

# 选择标签模式来启动
PPOCRLabel --lang ch  # 启动【普通模式】,用于打【检测+识别】场景的标签
PPOCRLabel --lang ch --kie True  # 启动 【KIE 模式】,用于打【检测+识别+关键字提取】场景的标签

Ubuntu Linux

pip3 install PPOCRLabel
pip3 install trash-cli

# 选择标签模式来启动
PPOCRLabel --lang ch  # 启动【普通模式】,用于打【检测+识别】场景的标签
PPOCRLabel --lang ch --kie True  # 启动 【KIE 模式】,用于打【检测+识别+关键字提取】场景的标签

MacOS

pip3 install PPOCRLabel
pip3 install opencv-contrib-python-headless==4.2.0.32 # 如果下载过慢请添加"-i https://mirror.baidu.com/pypi/simple"

# 选择标签模式来启动
PPOCRLabel --lang ch  # 启动【普通模式】,用于打【检测+识别】场景的标签
PPOCRLabel --lang ch --kie True  # 启动 【KIE 模式】,用于打【检测+识别+关键字提取】场景的标签

2. 基于PPOCRLabel的数据标注

下面以五张图片为例介绍一下数据标注过程,首先点击文件->打开目录打开图片所在的文件夹。
在这里插入图片描述
点击PaddleOCR->选择模型选择模型语言(每次打开软件都需要选择),点击自动标注
在这里插入图片描述
然后对识别不准确的部分进行手动调整,可以调整检测框,也可以调整右侧的识别结果。比如图片中的“沧海桑田”识别有误,则我们人为进行修改。调整完毕后点击确认按钮保存。

3. 导出标注结果
点击文件按钮,可以看到导出

评论 30
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值