Windows使用tesserocr识别图片
pip安装tesserocr
例如,python版本是win32的3.7,须下载tesserocr-2.4.0-cp37-cp37m-win32.whl
安装:pip install tesserocr-2.4.0-cp37-cp37m-win32.whl
下载tesseract
下载地址:https://digi.bib.uni-mannheim.de/tesseract/
注意:ACT安装版本需要与OCR的支持版本保持一致!
安装:双击安装即可!
项目使用
程序
import tesserocr
from PIL import Image
def image2word(path, lang):
try:
image = Image.open(path)
words = tesserocr.image_to_text(image, lang=lang)
return words
except (OSError, NameError):
return 'Error!'
1、如果报错:Failed to init API, possibly an invalid tessdata path {A}
需要将Tesseract-OCR
目录下的tessdata
文件夹拷贝到A目录下!
2、其中lang
默认是eng
,即识别英文,可以根据ISO 639-3标准赋予其他语言,如韩语kor
注意:如果tesseract未安装相应语言包,项目中却使用到此语言包,会报错:
Failed to init API, possibly an invalid tessdata path
查看已安装语言
cd {ocr安装路径/Tesseract-OCR}
./tesseract --list-langs
安装语言包
下载地址:https://tesseract-ocr.github.io/tessdoc/Data-Files
如图所示,直接点击相应语言的下载链接,下载到本地,之后将下载的文件拷贝到Tesseract-OCR\tessdata
目录下,以及A目录\tessdata
目录下!
附
国内的PaddleOCR效果更强一些,项目地址:https://github.com/PaddlePaddle/PaddleOCR
如果有机会,会发一篇文章对比两者间的效果差异!
♥ 喜 欢 请 点 赞 哟 ♥ |
(●ˇ∀ˇ●) |