【Python】爬虫实战，爬虫下载多页图片

最新推荐文章于 2023-09-17 22:13:56 发布

原创

最新推荐文章于 2023-09-17 22:13:56 发布 · 1k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫 #python

这篇博客是新手的首个爬虫实战记录，介绍了如何使用Python实现自定义爬取多页图片的功能。作者提醒读者在学习时要注意避免频繁请求，并仅展示了爬取两页数据的代码作为示例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言:

新手记录自己写的第一个爬虫,可以自定义爬取页数.

如果侵犯到相关网站利益，请联系我删除博文。造成不便还请见谅。希望各位同学在学习的时候不要过于频繁的去请求。文中只爬取了两页数据,验证代码爬取多页方法.

完整代码:

import requests
from lxml import etree


url1 = 'http://www.netbian.com/meinv/' # 第一页网址
url2 = 'http://www.netbian.com/meinv/index_2.htm' # 第二页网址
url3 = 'http://www.netbian.com' #用于合并大图网址
a=1  #用于记录图片下载到第几张了
b=int(input('请输入下载页数:'))
# 爬取2页图片,共38张
for i in range(b+1):
    if i==0:
        resp = requests.get(url1)   # 如果i等于0,爬取第一页,网址为url1
        resp.encoding='gbk'         # 设置编码为gbk
        # print(resp.content)       # 这里检查是否爬取到内容
        tree = etree.HTML(resp.content) # 将爬取的内容传递给xpath解析
        node_list = tree.xpath('//*[@id="main"]/div[3]/ul/li') # 获取到含有图片的网页代码段,每页共19张图片
        #print(type(node_list))
        #print(node_list)
        #break
        pic_list = []   # 新建一个空的数组