scrapy框架的基本使用

本文介绍了Scrapy框架的使用场景、工作原理以及详细的实践步骤,包括创建项目、创建爬虫、设定爬取目标和解析策略,以及启动spider。在实际操作中,通过创建一个爬虫来抓取51testing论坛的测试用例设计专栏帖子,通过pipelines进行内容存储,并讨论了遇到的未解决问题——初始url的type字段未保存到输出文件。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、使用场景


在需要爬取的数据量极大的情况下,建议使用scrapy框架。性能好。

二、scrapy工作原理


engine 引擎,类似于一个中间件,负责控制数据流在系统中的所有组件之间流动,可以理解为“传话者”
spider 爬虫,负责解析response和提取Item
downloader 下载器,负责下载网页数据给引擎
scheduler 调度器,负责将url入队列,默认去掉重复的url
item pipelines 管道,负责处理被spider提取出来的Item数据

 

1、从spider中获取到初始url给引擎,告诉引擎帮我给调度器;

2、引擎将初始url给调度器,调度器安排入队列;

3、调度器告诉引擎已经安排好,并把url给引擎,告诉引擎,给下载器进行下载;

4、引擎将url给下载器,下载器下载页面源码;

5、下载器告诉引擎已经下载好了,并把页面源码response给到引擎;

6、引擎拿着response给到spider,spider解析数据、提取数据;

7、spider将提取到的数据给到引擎,告诉引擎,帮我把新的url给到调度器入队列,把信息给到Item Pipelines进行保存;

8、Item Pipelines将提取到的数据保存,保存好后告诉引擎,可以进行下一个url的提取了;

9、循环3-8步,直到调度器中没有url,关闭网站(若url下载失败了,会返回重新下载)。



一、创建项目

创建一个爬虫项目test_spider。cmd,cd到将要存放项目的目录中。

scrapy startproject test_spider

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值