Windows使用tesserocr识别图片

原创已于 2022-02-05 00:03:59 修改 · 1.3k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#windows #python #ocr

于 2022-02-05 00:03:14 首次发布

Python 专栏收录该内容

45 篇文章

订阅专栏

本文介绍了如何在Windows上安装和使用tesserocr库进行图片文字识别。首先，通过pip安装tesserocr的whl文件，然后下载并安装tesseract OCR软件，确保版本匹配。在使用过程中，要注意tessdata文件夹的位置，以及安装所需的语言包。如果需要识别其他语言，可以下载对应的语言包放入指定目录。此外，文章还提到了国内的PaddleOCR作为替代方案，并表示将对比两者效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Windows使用tesserocr识别图片

pip安装tesserocr

下载地址：https://github.com/simonflueckiger/tesserocr-windows_build/releases

在这里插入图片描述

例如，python版本是win32的3.7，须下载tesserocr-2.4.0-cp37-cp37m-win32.whl

安装：pip install tesserocr-2.4.0-cp37-cp37m-win32.whl

下载tesseract

下载地址：https://digi.bib.uni-mannheim.de/tesseract/

注意：ACT安装版本需要与OCR的支持版本保持一致！

安装：双击安装即可！

项目使用

程序

import tesserocr
from PIL import Image

def image2word(path, lang):
    try:
        image = Image.open(path)
        words = tesserocr.image_to_text(image, lang=lang)
        return words
    except (OSError, NameError):
        return 'Error!'

1、如果报错：Failed to init API, possibly an invalid tessdata path {A}

需要将Tesseract-OCR目录下的tessdata文件夹拷贝到A目录下！

2、其中lang默认是eng，即识别英文，可以根据ISO 639-3标准赋予其他语言，如韩语kor

注意：如果tesseract未安装相应语言包，项目中却使用到此语言包，会报错：

Failed to init API, possibly an invalid tessdata path

查看已安装语言

cd {ocr安装路径/Tesseract-OCR}
./tesseract --list-langs

在这里插入图片描述

安装语言包

下载地址：https://tesseract-ocr.github.io/tessdoc/Data-Files

在这里插入图片描述

如图所示，直接点击相应语言的下载链接，下载到本地，之后将下载的文件拷贝到Tesseract-OCR\tessdata目录下，以及A目录\tessdata目录下！

附

国内的PaddleOCR效果更强一些，项目地址：https://github.com/PaddlePaddle/PaddleOCR

如果有机会，会发一篇文章对比两者间的效果差异！


♥ 喜欢请点赞哟 ♥
(●ˇ∀ˇ●)