python爬虫之scrapy框架

本文详细介绍了使用Scrapy框架进行网络爬虫的步骤。从手动定义起始URL,构造request对象开始,通过引擎、调度器、下载器等组件自动完成请求与响应的处理。在解析过程中,Scrapy将数据转化为item或生成新的request,通过管道进行数据保存,形成高效的数据抓取流程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在能够使用基础代码实现爬虫效果的基础上。使用scrapy框架会大大的提高我们的效率。那么scrapy框架实现爬虫的流程是什么呢?如下图:

1、手动完成

       --在爬虫器内定义起始url,构造一下request对象,由于是起始url,request请求对象的构成是自动的。然后把request请求对象交给了引擎。

2、自动完成

        --引擎拿到request请求,交给调度器。

3、自动完成

        --调度器将request请求入队列,出队列,然后交给引擎。

4、自动完成

        --引擎吧request请求对象交给下载器。

5、自动完成

        --下载器拿到request请求后发送网络请求,得到响应response后交给引擎。

6、手动完成

        --引擎把响应response交给了爬虫器,根据需求进行解析(两种情况)

                --(1)如果是需要的数据,那么就构建item对象交给引擎

                --(2)如果是需要继续发送请求的url,手动构建request请求对象,交给引擎

7、手动完成

        --引擎拿到了爬虫器yield过来的数据

                --(1)如果是item对象,引擎就交给管道(pipeline)进行保存

                --(2)如果是request请求对象,引擎会交给调度器在把流程重新走一遍

下面是一个简单的流程图

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值