

本文由图雀社区成员灿若星空 写作而成,欢迎加入图雀社区,一起创作精彩的免费技术教程,予力编程行业发展。
如果您觉得我们写得还不错,记得 点赞 + 关注 + 评论 三连🥰🥰🥰,鼓励我们写出更好的教程
前情回顾
在上篇教程爬虫养成记——先跨进这个精彩的世界(女生定制篇)中我们已经可以将所有小哥哥的封面照片抓取下来,但仅仅是封面图片在质量和数量上怎么能满足小仙女们的要求呢?在本篇教程中,我们串起一根姻缘“线”,来把这一系列的小哥哥们都收入囊中。
出门先化妆
小仙女们出门约会总会“淡妆浓抹总相宜”,那爬虫出门去爬取数据,也得打扮打扮啊,不然怎么能让男神们都乖乖地跟着走呢?
爬虫的“化妆”可不是“妆前乳 –> 粉底 –> 遮瑕 –> 散粉 –> 画眉 –> 口红”等这些步骤,其目的是为了让对方网站更加确信来访者不是爬虫程序,而是一个活生生的人。人们通过操控浏览器来访问网站,那么爬虫程序只需要模仿浏览器就可以了。 那就来看看浏览器在打开网页时都画了那些“妆”。

打开Chrome并打开调试台,切换到NetWork选项卡,此时访问 https://www.nanrentu.cc/sgtp/ , 这是时候会看到调试台里出现了很多链接信息,这么多链接到底哪个是我们所需要的呢?回想一下上一篇内容,首先是要获得HTML文档,再从此文档中提取出图片的链接,所以目标有了,就是找到浏览器获取到这个HTML文档的那个链接。
Chrome知道这么多链接信息肯定会让开发者陷入茫然,所以给链接进行了归类,点击上方Doc分类,再点击那唯一的一条链接,就会看到获取此HTML文档链接的详细信息了。此时我们关注主要Request Headers 这个里面的内容。浏览器通过http协议与服务器交互获取信息,爬虫是通过模仿浏览器发出http协议获取信息,其中最重要的一个模仿点就是Request Headers。
http协议里面的“瓶瓶罐罐”
让男生看女孩子化妆用的那些瓶瓶罐罐估计会陷入沉思,这是BB霜,那是粉底液,还有散粉、眼影、遮瑕膏,更不用说各种色号的口红啦。那女孩子看到这http里面的各项内容时估计也会一脸懵逼,其这比化妆品简单多了,我们只需简单了解,就能给爬虫画出精致妆容。
:authority: www.nanrentu.cc
:method: GET // 自定义请求头 请求方法
:path: /sgtp/ // 自定义请求头 请求路径
:scheme: https // 自定义请求头 请求方式
// 所接受的内容格式
accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,i