python爬虫之scrapy框架

最新推荐文章于 2024-09-09 17:34:54 发布

路哥爱编程

最新推荐文章于 2024-09-09 17:34:54 发布

阅读量3.9k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： python 文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lyb9988/article/details/123970773

python 专栏收录该内容

7 篇文章

订阅专栏

本文详细介绍了使用Scrapy框架进行网络爬虫的步骤。从手动定义起始URL，构造request对象开始，通过引擎、调度器、下载器等组件自动完成请求与响应的处理。在解析过程中，Scrapy将数据转化为item或生成新的request，通过管道进行数据保存，形成高效的数据抓取流程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在能够使用基础代码实现爬虫效果的基础上。使用scrapy框架会大大的提高我们的效率。那么scrapy框架实现爬虫的流程是什么呢？如下图：

1、手动完成

--在爬虫器内定义起始url，构造一下request对象，由于是起始url，request请求对象的构成是自动的。然后把request请求对象交给了引擎。

2、自动完成

--引擎拿到request请求，交给调度器。

3、自动完成

--调度器将request请求入队列，出队列，然后交给引擎。

4、自动完成

--引擎吧request请求对象交给下载器。

5、自动完成

--下载器拿到request请求后发送网络请求，得到响应response后交给引擎。

6、手动完成

--引擎把响应response交给了爬虫器，根据需求进行解析(两种情况)

--(1)如果是需要的数据，那么就构建item对象交给引擎

--(2)如果是需要继续发送请求的url，手动构建request请求对象，交给引擎

7、手动完成

--引擎拿到了爬虫器yield过来的数据

--(1)如果是item对象，引擎就交给管道(pipeline)进行保存

--(2)如果是request请求对象，引擎会交给调度器在把流程重新走一遍

下面是一个简单的流程图

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。