提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
前言
最近学习Pyhton,发现通过tesseract-ocr可以快速搭建图文识别系统,帮助我们开发出能识别图片的ocr系统
一、tesseract-ocr是什么?
Tesseract-OCR:开源的OCR识别引擎,初期Tesseract引擎由HP实验室研发,后来贡献给了开源软件业,后经由Google进行改进,消除bug,优化,重新发布。
开发环境
Python 3.6
pip 9.0.1
tesseract-ocr-w64-setup-v5.0.0-rc1.20211030.exe
Windows 7
1.下载安装包方法:
https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-v5.0.0-rc1.20211030.exe
2.下载安装包方法:
https://github.com/UB-Mannheim/tesseract/wiki
二、Tesseract-OCR 安装和使用
1.引入库
代码如下(示例):
pip install pytesseract
2.配置环境变量
打开命令终端,输入:tesseract -v,可以看到版本信息
用命令tesseract --list-langs来查看Tesseract-OCR支持语言。
3.Python-OCR使用Tesseract-OCR
代码如下(示例):
# coding:utf-8
import pytesseract
from PIL import Image
def OCR_demo():
# 导入OCR安装路径,如果设置了系统环境,就可以不用设置了
# pytesseract.pytesseract.tesseract_cmd = r"D:\Program Files\Tesseract-OCR\tesseract.exe"
# 打开要识别的图片
image = Image.open('554931-20180913135804312-820205884.png')
# 使用pytesseract调用image_to_string方法进行识别,传入要识别的图片,lang='chi_sim'是设置为中文识别,
#text = pytesseract.image_to_string(image, lang='chi_sim')
text = pytesseract.image_to_string(image)
print(text)
if __name__ == '__main__':
OCR_demo()
遇到问题:
解决方案:找到python的安装路径下的pytesseract:
用文本编辑器打开,查找tesseract_cmd
将原来的 tesseract_cmd = ‘tesseract’ 改为: tesseract_cmd = ‘OCR的安装路径下的tessract.exe’
总结
记录点点滴滴。