
HttpFetcher
文章平均质量分 83
shihlei
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
HttpClient4.3.3 使用样例—获取静态资源
编写不易,转载请注明(http://shihlei.iteye.com/blog/2067688)! 一 概述 HttpClient是最常见的Http请求工具,很好的封装 Http请求,响应,Cookies操作,适合网络爬虫处理静态页面及其他资源。 HttpCient能自动处理302客户端重定向,这个很喜欢! HttpClient4.3.3 API较之前的...原创 2014-05-17 17:49:24 · 481 阅读 · 0 评论 -
HtmlUnit2.14使用样例—获取动态网页
编写不易,转载请注明(http://shihlei.iteye.com/blog/2067707)! 一 概述 HttpClient适合处理静态资源,网络爬虫等类似应用很大程度需要处理动态网页(内容有js填充,如百度图片,body里基本没有数据,碰到最麻烦的是新浪微博列表页)。将网页下载后,结合JS和Dom模型还原网页,我目前还未攻破,但在下载层还原网页,HtmlUnit是一...原创 2014-05-17 19:40:38 · 812 阅读 · 0 评论 -
Selenium2.41.0—获取动态资源
编写不易,转载请注明(http://shihlei.iteye.com/blog/2067716)! 一概述 获取动态资源,可以使用HtmlUnit,但是其对JS的支持还是不够完善。相对与HtmlUnit还有一种驱动浏览器的下载还原工具Selenium。可以打开浏览器,获取网页,下载解析,支持dom,js,解析效果更好,但是打开浏览器速度方面有一定损失。个人实验,禁用CSS,图片下...原创 2014-05-17 21:18:08 · 150 阅读 · 0 评论