爬虫技术-验证码处理

本文介绍了验证码在防止爬虫过程中的作用,并详细探讨了图形验证码的逆向分析,包括其组成、生成和返回过程。同时,提到了Pillow库在图像处理中的应用,以及如何使用该库进行验证码识别的实战。最后,讨论了验证码的突破策略,包括获取和验证验证码的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

验证码反爬虫

1. 简介

​ 我们在浏览网站的时候经常会遇到各种各样的验证码,在多数情况下这些验证码会出现在登录账号的时候,也可能会出现在访问页面的过程中,严格来说,这些行为都算验证码反爬虫。

样例:https://my.cnki.net/Register/CommonRegister.aspx?returnUrl=https://www.cnki.net

1.1 验证码得作用

它有什么用呢?当然很多用处,如:

  • 网站注册的时候加上验证码,可以一定程度上防止恶意大批量注册。
  • 网站登录的时候加上验证码,可以一定程度上防止恶意密码爆破。
  • 网站在发表评论的时候加上验证码,可以在一定程度上防止恶意灌水。
  • 网站在投票的时候加上验证码,可以在一定程度上防止恶意刷票。
  • 网站在被频繁访问的时候或者浏览行为不正常的时候,一般可能是遇到了爬虫,可以一定程度上防止爬虫的爬取。

总的来说呢,以上的行为都可以称之为验证码反爬虫行为。使用验证码可以防止各种可以用程序模拟的行为。有了验证码,机器要想完全自动化执行就会遇到一些麻烦,当然这个麻烦的大小就取决于验证码的破解难易程度了。

2. 图形验证码

2.1 逆向目标
2.2 逆向分析
2.2.1 图形验证码组成

地址:http://app.gjzwfw.gov.cn/jmopen/verifyCode.do?width=100&height=55&random=0.9567858374678466

彩色图像通常由多种颜色组成,几乎所有颜色都可以由三种原色(红色,绿色和蓝色)生成,即RGB图像。

在这里插入图片描述

查看RGB:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值