【Python】爬虫实战,爬虫下载多页图片

这篇博客是新手的首个爬虫实战记录,介绍了如何使用Python实现自定义爬取多页图片的功能。作者提醒读者在学习时要注意避免频繁请求,并仅展示了爬取两页数据的代码作为示例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言:

新手记录自己写的第一个爬虫,可以自定义爬取页数.

如果侵犯到相关网站利益,请联系我删除博文。造成不便还请见谅。希望各位同学在学习的时候不要过于频繁的去请求。文中只爬取了两页数据,验证代码爬取多页方法.

 完整代码:

import requests
from lxml import etree


url1 = 'http://www.netbian.com/meinv/' # 第一页网址
url2 = 'http://www.netbian.com/meinv/index_2.htm' # 第二页网址
url3 = 'http://www.netbian.com' #用于合并大图网址
a=1  #用于记录图片下载到第几张了
b=int(input('请输入下载页数:'))
# 爬取2页图片,共38张
for i in range(b+1):
    if i==0:
        resp = requests.get(url1)   # 如果i等于0,爬取第一页,网址为url1
        resp.encoding='gbk'         # 设置编码为gbk
        # print(resp.content)       # 这里检查是否爬取到内容
        tree = etree.HTML(resp.content) # 将爬取的内容传递给xpath解析
        node_list = tree.xpath('//*[@id="main"]/div[3]/ul/li') # 获取到含有图片的网页代码段,每页共19张图片
        #print(type(node_list))
        #print(node_list)
        #break
        pic_list = []   # 新建一个空的数组
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值