【爬虫入门练习日记9】xpath应用---解析下载图片数据

1.目标网址以及爬取需要

4K风景壁纸_高清4K风景图片大全_彼岸图网 (netbian.com)icon-default.png?t=N7T8https://pic.netbian.com/4kfengjing/

 爬取要求:获取网页图片,并对图片进行命名,储存在文件夹当中

2.网页分析

在开发者工具中查看网页源代码,分析所需要的图片所在标签,寻找其共同点。

开发者工具---》网页右键---》检查---》源代码

通过分析可以得知,每个图片都是在img标签之下。img标签还有一个src属性和alt属性,我们可以将alt属性作为图片的命名。

如何获取图片?利用src属性,而且要有完整。包括前面的域名。

深入分析,层级关系如下:

img标签---》a标签---》li标签----》ul标签(属性:class = ‘clearfix’)---》div标签(属性:class=‘slist’)

3.前期准备

3.1url

https://pic.netbian.com/4kfengjing/

3.2UA伪装

开发者工具:

---》网页右键-----》检查-----》network----》标头

封装成字典的形式

4.完整代码

import requests
from lxml import etree
import os
os.mkdir("./image")
# 前期准备:URL,UA伪装
url = "http://pic.netbian.com/4kfengjing/"
headers = {'User-Agent': "Mozilla/5.0 "}  # 此处的UA不完整,自行复制完整
# 发送请求
response = requests.get(url=url,headers=headers)
# print(response)
page_text = response.text
# print(page_text)
# 利用xpath解析数据
tree = etree.HTML(page_text)
li_list = tree.xpath("//div/ul[@class='clearfix']/li")
for li in li_list:
    picture_src = "https://pic.netbian.com" + li.xpath(".//a/img/@src")[0]
    picture_name = li.xpath(".//a/img/@alt")[0] + ".jpg"
    picture_name = picture_name.encode('iso-8859-1').decode('gbk')
    # print(picture_src, picture_name)   # 获取到图片的网址与图片名称
    # 对图片进行持久化储存
    # 由于这次进行储存的是图片,response的content属性返回的就是二进制形式图片数据
    img_data = requests.get(url=picture_src,headers=headers).content
    img_path = 'image/' + picture_name
    with open(img_path, "wb") as fp:
        fp.write(img_data)
        print(picture_name, "下载成功!!!")

5.运行效果

最后运行会出现一个文件夹,部分运行效果如下:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值