Python爬虫框架Scrapy应用实战解析

最新推荐文章于 2025-07-09 08:10:29 发布

原创

最新推荐文章于 2025-07-09 08:10:29 发布 · 1.6k 阅读

21 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #scrapy #django #vscode #pycharm #正则表达式

内容导读

Scrapy框架简介
通过Scrapy爬取文本信息
定制下载器中间件

一、Scrapy框架简介

Scrapy是一个为了爬取网站数据，提取结构化数据而编写的应用程序框架，可以应用在包括数据挖掘、信息处理或存储历史数据等一系列功能的程序中。

该框架也可以应用在获取API（如Amazon Associates Web Services的API）所返回的数据或通用的网络爬虫中。

在使用Scrapy框架之前，需要先了解该框架的构成、常用命令。

使用Scrapy爬取某企业官网新闻动态。

1、了解Scrapy爬虫框架

Scrapy是一个爬虫框架而非功能函数库，简单地说，它是一个半品，可以帮助用户简单快速地部署一个专业的网络爬虫。

Scrapy爬虫框架主要由引擎（Engine）、调度器（Scheduler）、下载器（Downloader）、Spiders、Item Pipelines、下载器中间件（Downloader Middlewares）、Spider中间件（Spider Middlewares）这7个组件构成。

引擎：负责控制数据流在系统所有组件中的流向，并能在不同的条件下触发相对应的事件。引擎组件相当于爬虫的“大脑”，是整个爬虫的调度中心。

调度器：从引擎接收请求并将该请求加入队列，以便之后引擎需要时将它们提供给引擎。初始爬取的URL和后续在网页中获取的待爬取URL都将被放入调度器中，等待爬取，同时调度器会自动去除重复的URL。如果特定的URL不需要去重，那么可以通过设置实现，如POST请求的URL。

下载器：主要功能是获取网页内容，并将其提供给引擎和Spiders。

Spiders：是Scrapy用户编写的用于分析响应，并提取Items或额外跟进的URL的一个类。每个Spider负责处理一个（或一些）特定网站。

Item Pipelines：主要功能是处理被Spiders提取出来的Items。典型的处理有清理、验证及持久化（如将Items存取到数据库中）。当网页中被爬虫解析的数据存入Items后，将被发送到Item Pipelines，经过几个特定的数据处理次序后，存入本地文件或数据库。

下载器中间件：是一组在引擎及下载器之间的特定钩子（Specific Hook），主要功能是处理下载器传递给引擎的响应（Response）。下载器中间件提供了一个简便的机制，可通过插入自定义代码来扩展Scrapy的功能。通过设置下载器中间件可以实现爬虫自动更换User-Agent、IP地址等功能。

Spider中间件：是一组在引擎及Spiders之间的特定钩子，主要功能是处理Spiders的输入（响应）和输出（Items及请求）。同时，Spider中间件提供了一个简便的机制，可通过插入自定义代码来扩展Scrapy的功能。