Windows使用tesserocr识别图片

本文介绍了如何在Windows上安装和使用tesserocr库进行图片文字识别。首先,通过pip安装tesserocr的whl文件,然后下载并安装tesseract OCR软件,确保版本匹配。在使用过程中,要注意tessdata文件夹的位置,以及安装所需的语言包。如果需要识别其他语言,可以下载对应的语言包放入指定目录。此外,文章还提到了国内的PaddleOCR作为替代方案,并表示将对比两者效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Windows使用tesserocr识别图片

pip安装tesserocr

下载地址:https://github.com/simonflueckiger/tesserocr-windows_build/releases

在这里插入图片描述

例如,python版本是win32的3.7,须下载tesserocr-2.4.0-cp37-cp37m-win32.whl

安装:pip install tesserocr-2.4.0-cp37-cp37m-win32.whl

下载tesseract

下载地址:https://digi.bib.uni-mannheim.de/tesseract/

注意:ACT安装版本需要与OCR的支持版本保持一致!

安装:双击安装即可!

项目使用

程序
import tesserocr
from PIL import Image

def image2word(path, lang):
    try:
        image = Image.open(path)
        words = tesserocr.image_to_text(image, lang=lang)
        return words
    except (OSError, NameError):
        return 'Error!'

1、如果报错:Failed to init API, possibly an invalid tessdata path {A}

需要将Tesseract-OCR目录下的tessdata文件夹拷贝到A目录下!

2、其中lang默认是eng,即识别英文,可以根据ISO 639-3标准赋予其他语言,如韩语kor

注意:如果tesseract未安装相应语言包,项目中却使用到此语言包,会报错:

Failed to init API, possibly an invalid tessdata path
查看已安装语言
cd {ocr安装路径/Tesseract-OCR}
./tesseract --list-langs

在这里插入图片描述

安装语言包

下载地址:https://tesseract-ocr.github.io/tessdoc/Data-Files

在这里插入图片描述

如图所示,直接点击相应语言的下载链接,下载到本地,之后将下载的文件拷贝到Tesseract-OCR\tessdata目录下,以及A目录\tessdata目录下!


国内的PaddleOCR效果更强一些,项目地址:https://github.com/PaddlePaddle/PaddleOCR

如果有机会,会发一篇文章对比两者间的效果差异!

♥ 喜 欢 请 点 赞 哟 ♥
(●ˇ∀ˇ●)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

九思梦鹿

喜欢,请记得点赞或赞赏哟

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值