python scrapy 爬取妹子图的照片

最新推荐文章于 2022-02-09 01:30:00 发布

我有个朋友是大曹村的

最新推荐文章于 2022-02-09 01:30:00 发布

阅读量3.2k

点赞数

CC 4.0 BY-SA版权

分类专栏： python 文章标签： python scrapy 爬虫妹子图

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lvronglee/article/details/44274401

python 专栏收录该内容

1 篇文章

订阅专栏

本文介绍如何在Windows环境下使用Scrapy框架抓取煎蛋网妹子图板块的所有图片，并通过Scrapy的ImagesPipeline功能实现图片的自动化下载。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

主要描述在windows 上如何用scrapy抓取煎蛋网妹子图所有的图片下载。
软件准备：winpython,啥都不说了，ipython很好用。

安装scrapy,进入winpython 执行scrapt\env.bat。这样就可以直接pip install scrapy；注意执行的log，好像还要安装一个service_identity,具体什么功能也不清楚。以后慢慢研究。
建立工程scrapy startproject myscrapy

建立spider scrapy genspider spider(需要进入myscrapy)

使用ImagesPipeLine,在settings.py中添加如下文件

ITEM_PIPELINES = {'scrapy.contrib.pipeline.images.ImagesPipeline':1}#使用imagespipeline

IMAGES_STORE = 'E:\download'#下载的路径

还可以过滤图片大小什么的，暂时用不到。

scrapy 提供imagespipe 提供图片下载功能，只要提供urls就行了。

定义item类

class xxxItem(scrapy.Item):

image_urls = scrapy.Field()

imges = scrapy.Field()

spider.py文件

class JiandanSpider(scrapy.Spider):

name = "jandan"

allowed_domains = ["jandan.net"]

start_urls = (

'http://jandan.net/ooxx',

)

def parse(self, response):

t = response.xpath('//div[1]/div/div[2]/p/img')

img_urls = t.xpath('@src').extract()

newItem = BlueItem(image_urls = img_urls)

yield newItem

#extract 每个图片的src，直接丢给ImagesPipeline处理。

sel_next_url = response.xpath('//div[2]/div/a')

for item in sel_next_url:

classname = item.xpath('@class').extract()

if len(classname) > 0:

if "previous-comment" in classname[0]:

urls = item.xpath('@href').extract()

for url in urls:

if "comments" in url:

print "-->",url,"<--"

yield scrapy.Request(url, callback = self.parse)

#提取下一个网页，重新发起请求。

坐等大巴大巴的妹子图片

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。