前言:python爬虫爬取图片可以用BeautifulSoup类加Requests库,也可以用scrapy框架,这里主要介绍scrapy方法
tips:有些网站抓取时有可能会返回盗链图
解决方案:防止抓到盗链图
1构建scrapy项目:
在cmd输入scrapy startproject 项目名
输入 cd +目录
此处省略(可以参考我之前的文档scrapy从入门到放弃)``
2查看网页:找我们需要的数据
输入目标网站
浏览器右键查看源代码:
用css选择器
# -*- coding: utf-8 -*-
import scrapy
import os
from zhuamm.items import ZhuammItem
class DSpider(scrapy.Spider):
name = 'd'
allowed_domains = ['https://www.mzitu.com/']
start_urls = ['https://www.mzitu.com/page/1/']
picturelist = []
page = 1
item = ZhuammItem()
def parse(self, response):
print