爬取的网址:http://jwxt.gdufe.edu.cn/jsxsd/
最近在研究python爬虫,就拿了自己学校的一个相当于教务系统的东西?来模拟登陆了一下。网上查了一下资料,
教务系统好像通常都是爬虫新手&学生的挚爱,因为登陆简单不用验证码等等等。。
其实这个还是挺简单的,但是我在分析HTTP的请求和响应的时候中了一个坑,所以搞了一天。。真是弱,好烦
先说说用到的python库是urllib.request和http.cookiejar。模拟登陆需要使用cookie去保持登陆的状态,若不懂就自行百度。
这里主要想聊一聊如何抓包和分析HTTP请求和响应的消息头。
先看看这个系统的登陆界面:
我就直接登陆然后用360自带的功能进行抓包,看看在登陆的时候模拟器和服务器之间干了些什么。