Tesserocr使用时fail to init API问题解决
在初次使用tesserocr时会遇到各种问题。如fail to init API, possibly an invalid tessdata path
我这里装的是tesseract-ocr-w64-setup-v4.0.0.20181030版,python是3.7.4
尽管按网上其他教程所述,做以下两步:
1. 添加环境变量path
2. 新建环境变量tessdata路径
此后仍然可能会报错。
信息为Failed to init API, possibly an invalid tessdata path D:\Program Files (x86)\Tesseract-OCR/
按网上其他方法各种改路径都没用。
最后将上图中tessdata路径改成D:\Program Files (x86)\Tesseract-OCR\tessdata后,终于解决。更改环境变量TESSDATA_PREFIX路径后,需要注销或重启才能使更改生效。
推测原因为tesserocr3.x对应的函数是直接在指定目录下寻找tessdata文件夹并读取里面的内容,而tesserocr4.0则需要直接指定tessdata文件夹。
比较懒,测试图片为网页上随便截图下来的文字,对我截的就是下载tesserocr的页面上的。不得不说有点坑,用pip3下载的tesserocr实际为linux的安装包,只能从网上下载用whl方式安装。windows对应的tesserocr下载地址:https://github.com/simonflueckiger/tesserocr-windows_build/releases