PIL + pytesseract 玩转验证码图片识别

最新推荐文章于 2023-03-17 17:26:46 发布

原创最新推荐文章于 2023-03-17 17:26:46 发布 · 890 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#python

Python 专栏收录该内容

1 篇文章

订阅专栏

该博客介绍了如何使用Python的PIL和pytesseract模块进行图片验证码识别。首先，通过pip安装所需库，然后安装tesseract-ocr引擎并设置环境变量。接着，通过代码读取图片、进行灰度处理，并调用pytesseract进行识别。对于中文验证码，需要安装中文语言包。整个过程详细阐述了验证码识别的基本步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

有时候我们在模拟登陆的时候会遇到图片验证码，如果是简单的数字字母验证码，可以通过图片识别的方法识别验证码，再发送post请求模拟登陆。

验证码图片的爬取可以通过找到某验证码的url，通过python的requests模块get图片资源，这里不做过多介绍。

我们在本地尝试完成验证码图片的识别。本地已经安装Anaconda3，使用Python3。其下均在Anaconda环境进行操作。

1.安装PIL模块和pytesseract模块

PIL是python的一个图像处理标准库，pytesseract是免费的ocr识别库。在Anaconda Prompt中安装两个模块。

pip install PIL
pip install pytesseract

2.安装识别引擎tesseract-ocr

tesseract-ocr是OCR文字识别引擎，需要在本机进行安装。

下载后傻瓜式安装即可，这里可以将tesseract.exe加入环境变量，如不加入，后面需要修改Anaconda安装目录D:\Anaconda3\Lib\site-packages\pytesseract\pytesseract.py中的tesseract_cmd路径。

tesseract_cmd = 'D:/Tesseract-OCR/tesseract.exe'

3.图片识别

import pytesseract
from PIL import Image
import numpy as np
 
path='D:/vc_code.png'
imageObject = Image.open(path) # 传入保存的图片路径
print(imageObject)
imageObject = np.array(imageObject.convert('L'), 'f')  #图片灰度处理
result = pytesseract.image_to_string(imageObject)
print("验证码识别结果：", result)

4.中文识别

在’D:\Tesseract-OCR’路径下运行cmd，输入命令tesseract --list-langs查看支持的语言，未安装有chi_sim中文数据包，需要手动安装。下载解压后’D:\Tesseract-OCR\tessdata’目录下即可。
在这里插入图片描述
使用方法：

result = pytesseract.image_to_string(imageObject, lang='chi_sim')