爬取动态网页数据:
1.需求:
爬取什么网站获得什么内容,存储在excel、txt与MySQL数据库中。
2.分析:
分析页面源码,找到需要的数据在哪里
打开目标网站-->输入关键词-->查看源码-->没发现数据信息
打开目标网站-->输入关键词-->按F12-->Network(网络)刷新-->找到带ajax请求字样的url,我们可以发现存在数据开头的json文件,这很可能就是我们所需要的数据信息,右击选择open link in new tab,可以发现其实就是我们所需的内容。
我们在写爬虫的时候需要多页爬取,自动模拟换页操作。首先我们点击下一页,可以看到url没有改变,这也就是Ajax(异步加载)的技术。点击相关数据的json文件,在右侧点击Headers栏,可以发现最底部有Form Data的字样,里面的内容这个是携带的表单数据内容.
图片.png
当我们换页的时候pn则变为2且first变为false,故我们可以通过构造post表单进行爬取。
图片.png
4.页面案例(拉勾网获取职位信息案例):
from urllib import request,parse
import json
import pymysql
import time
def lagouspider(url,form