Python爬虫——Scrapy 简介和安装

原创已于 2022-08-22 17:25:59 修改 · 1.2k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #scrapy

于 2022-08-22 17:25:19 首次发布

python 专栏收录该内容

36 篇文章

订阅专栏

Scrapy是一个强大的Python爬虫框架，基于Twisted实现异步处理，适用于数据提取、网络监测和自动化测试。其核心Engine协调Spider、Scheduler、Downloader和ItemPipeline等组件工作。安装时，可能遇到的依赖问题包括w3lib、twisted、lxml、cssselect和pyOpenSSL等，可使用pip安装相应模块。使用Anaconda安装则更为简便，但需注意Python解释器路径设置。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Python爬虫——Scrapy 简介和安装

1、Scrapy 简介

Scrapy 简介

Scrapy 是一个基于 Twisted实现的专业的、高效的异步处理爬虫框架，Scrapy 框架用纯Python实现。

Twisted：一个采用 Python 实现的基于事件驱动的网络引擎框架，用 Twisted 来处理网络通讯可以加快我们的下载速度，不用自己去实现异步框架。

Scrapy 框架用途非常广泛，可以提取网站数据、网络监测以及自动化测试等，Scrapy 也可以根据自己需求所需要的数据进行定制。

Scrapy 框架使用 lxml（专业的 XML 处理包）、cssselect 高效地提取 HTML 页面的有效信息，同时它也提供了有效的线程管理。

Scrapy 框架使用起来也很方便，开发人员只需要定制开发几个模块就可以实现一个爬虫程序，用来抓取网页数据或图片。

Scrapy 架构和组件

Scrapy 架构图

Scrapy 组件：

Engine，引擎，是整个框架的核心，负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等
Item，项目，它定义了爬取结果的数据结构，爬取的数据会被赋值成该对象。
Scheduler，调度器，用来接受引擎发过来的Request请求并按照一定的方式加入队列中，并在引擎再次请求的时候提供给引擎。
Downloader，下载器，用于下载Engine请求到的网页内容，并将其获取到的Responses交还给Engine(引擎)，由Engine交给Spider来处理。
Spiders，爬虫，其内定义了爬取的逻辑和网页的提取数据规则，它主要负责处理所有Responses并生成提取结果，并将新的URL提交给引擎，再次进入Scheduler(调度器)。
Item Pipeline，项目管道，负责处理Spider中获取到的Item，并进行进行清洗、验证和存储数据。
Downloader Middlewares，下载器中间件，自定义扩展下载功能的组件，位于引擎和下载器之间的钩子框架，主要是处理引擎与下载器之间的请求及响应。
Spider Middlewares，蜘蛛中间件，位于引擎和蜘蛛之间的钩子框架，可以自定扩展和操作引擎和Spider中间通信的功能组件。