爬虫养成记–顺藤摸瓜回首掏(女生定制篇)

本文由图雀社区成员灿若星空 写作而成,欢迎加入图雀社区,一起创作精彩的免费技术教程,予力编程行业发展。

如果您觉得我们写得还不错,记得 点赞 + 关注 + 评论 三连🥰🥰🥰,鼓励我们写出更好的教程

前情回顾

在上篇教程爬虫养成记——先跨进这个精彩的世界(女生定制篇)中我们已经可以将所有小哥哥的封面照片抓取下来,但仅仅是封面图片在质量和数量上怎么能满足小仙女们的要求呢?在本篇教程中,我们串起一根姻缘“线”,来把这一系列的小哥哥们都收入囊中。

出门先化妆

小仙女们出门约会总会“淡妆浓抹总相宜”,那爬虫出门去爬取数据,也得打扮打扮啊,不然怎么能让男神们都乖乖地跟着走呢?

爬虫的“化妆”可不是“妆前乳 –> 粉底 –> 遮瑕 –> 散粉 –> 画眉 –> 口红”等这些步骤,其目的是为了让对方网站更加确信来访者不是爬虫程序,而是一个活生生的人。人们通过操控浏览器来访问网站,那么爬虫程序只需要模仿浏览器就可以了。 那就来看看浏览器在打开网页时都画了那些“妆”。

打开Chrome并打开调试台,切换到NetWork选项卡,此时访问 https://www.nanrentu.cc/sgtp/ , 这是时候会看到调试台里出现了很多链接信息,这么多链接到底哪个是我们所需要的呢?回想一下上一篇内容,首先是要获得HTML文档,再从此文档中提取出图片的链接,所以目标有了,就是找到浏览器获取到这个HTML文档的那个链接。

Chrome知道这么多链接信息肯定会让开发者陷入茫然,所以给链接进行了归类,点击上方Doc分类,再点击那唯一的一条链接,就会看到获取此HTML文档链接的详细信息了。此时我们关注主要Request Headers 这个里面的内容。浏览器通过http协议与服务器交互获取信息,爬虫是通过模仿浏览器发出http协议获取信息,其中最重要的一个模仿点就是Request Headers。

http协议里面的“瓶瓶罐罐”

让男生看女孩子化妆用的那些瓶瓶罐罐估计会陷入沉思,这是BB霜,那是粉底液,还有散粉、眼影、遮瑕膏,更不用说各种色号的口红啦。那女孩子看到这http里面的各项内容时估计也会一脸懵逼,其这比化妆品简单多了,我们只需简单了解,就能给爬虫画出精致妆容。

:authority: www.nanrentu.cc
:method: GET   // 自定义请求头 请求方法
:path: /sgtp/  // 自定义请求头 请求路径
:scheme: https // 自定义请求头 请求方式
// 所接受的内容格式
accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,i
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值