当爬虫被拒绝时(Access Denied)

最新推荐文章于 2024-06-21 14:34:32 发布

转载

最新推荐文章于 2024-06-21 14:34:32 发布 · 1.5k 阅读

1 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/FengYan/archive/2012/07/31/2614335.html

文章标签：

#爬虫 #java

当爬虫遭遇Access Denied时，可以通过伪装User Agent、登录网站、使用代理、降低访问频率等方式避免被封。伪装成不同的浏览器User Agent，记录并模仿登录过程，利用代理服务器分散IP流量，以及合理控制爬取速度都是有效的反反爬虫策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

由于要准备测试数据，不得不大量爬取某个网站的内容。为了防止被封，特意将爬虫设计为单线程同步的爬虫。结果在爬了大约3万个页面的时候，对方发回Access Denied。等一段时间后再启动爬虫，结果还是Access Denied。这时才明白这样的想法太天真了，当初就应该找其它方法来避免才对。而本文则记述了这些其它方法。

1. 伪装user agent

User agent 是HTTP协议的中的一个字段，其作用是描述发出HTTP请求的终端的一些信息。服务器通过这个字段就可以知道要访问网站的是什么人了。每个浏览器，每个正规的爬虫都有其固定的user agent，因此只要将这个字段改为这些知名的user agent，就可以成功伪装了。不过，不推荐伪装知名爬虫，因为这些爬虫很可能有固定的IP，如百度爬虫。与此相对的，伪装浏览器的user agent是一个不错的主意，因为浏览器是任何人都可以用的，换名话说，就是没有固定IP。推荐准备若干个浏览器的user agent，然后每次发送请求的时候就从这几个user agents中随机选一个填上去。IE的几个user agent如下：

Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0)
Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.2)
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)

设置代码如下（假设使用JAVA + HttpClient 4.1.2)

HttpGet getMethod = new HttpGet("URL");
getMethod.setHeader("User-Agent", "user agent内容");

2. log in

虽然有些网站不登陆就能访问，但是它一检测到某IP的访问量有异常，就会马上提出登陆要求。如果是不带验证码的，那么果断登陆吧。不过，在登陆之前要做些准备——查清楚POST登陆请求时要附带哪些参数。我的做法是先用badboy录制登陆过程，然后将这一过程导出为jm

最低0.47元/天解锁文章

200万优质内容无限畅学