01 导读
OCR 方向的工程师,之前一定听说过 PaddleOCR 这个项目,其主要推荐的 PP-OCR 算法更是被国内外企业开发者广泛应用。短短半年时间,累计 Star 数量已超过15k,频频登上 Github Trending 和 Paperswithcode 日榜月榜第一。
在《Github 2020数字洞察报告》中被评为中国 Github Top 20活跃项目,
称它为 OCR 方向目前最火的 repo 绝对不为过。
最近,由 PaddleOCR 原创团队,针对 PP-OCR 进行了一些经验性改进,构建了一种新的 OCR 系统,称为 PP-OCRv2。
从算法改进思路上看,主要有五个方面的改进:
1.检测模型优化:采用 CML 协同互学习知识蒸馏策略;
2.检测模型优化:CopyPaste 数据增广策略;
3.识别模型优化:LCNet 轻量级骨干网络;
4.识别模型优化:UDML 改进知识蒸馏策略;
5.识别模型优化:Enhanced CTC loss 损失函数改进。
从效果上看,主要有三个方面提升:
1.在模型效果上,相对于 PP-OCR mobile 版本提升超7%;
2.在速度上,相对于 PP-OCR server 版本提升超过220%;
3.在模型大小上,11.6M 的总大小,服务器端和移动端都可以轻松部署。
GitHub 项目:
https://github.com/PaddlePaddle/PaddleOCR
注:为了照顾刚了解 PaddleOCR 的新用户,在第二、三部分简单进行一些背景介绍,熟悉 PaddleOCR 的老用户可以直接跳到第四部分。