前言:
新手记录自己写的第一个爬虫,可以自定义爬取页数.
如果侵犯到相关网站利益,请联系我删除博文。造成不便还请见谅。希望各位同学在学习的时候不要过于频繁的去请求。文中只爬取了两页数据,验证代码爬取多页方法.
完整代码:
import requests from lxml import etree url1 = 'http://www.netbian.com/meinv/' # 第一页网址 url2 = 'http://www.netbian.com/meinv/index_2.htm' # 第二页网址 url3 = 'http://www.netbian.com' #用于合并大图网址 a=1 #用于记录图片下载到第几张了 b=int(input('请输入下载页数:')) # 爬取2页图片,共38张 for i in range(b+1): if i==0: resp = requests.get(url1) # 如果i等于0,爬取第一页,网址为url1 resp.encoding='gbk' # 设置编码为gbk # print(resp.content) # 这里检查是否爬取到内容 tree = etree.HTML(resp.content) # 将爬取的内容传递给xpath解析 node_list = tree.xpath('//*[@id="main"]/div[3]/ul/li') # 获取到含有图片的网页代码段,每页共19张图片 #print(type(node_list)) #print(node_list) #break pic_list = [] # 新建一个空的数组