Scrapy爬虫框架入门与实战

最新推荐文章于 2025-08-22 16:08:11 发布

原创最新推荐文章于 2025-08-22 16:08:11 发布 · 907 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#scrapy #爬虫 #python #网络爬虫 #selenium

爬虫知识点专栏收录该内容

9 篇文章

订阅专栏

在当今数字化时代，数据如同黄金般珍贵。而Scrapy作为一款强大的爬虫框架，就像一把锋利的铲子，帮助我们从互联网的矿山里挖掘出所需的宝藏。今天，就让我们一起走进Scrapy的世界，从零开始，一步步搭建起属于自己的数据挖掘工具。

一、什么是Scrapy

Scrapy是一个用Python编写的开源爬虫框架，用于快速提取网页数据，抓取（并解析）网站内容，并以通用的格式保存到本地文件或数据库中。它内置了许多强大的功能，比如自动处理请求、解析响应、数据提取、去重、数据存储等，极大地简化了爬虫开发的流程。

二、Scrapy的优势

高效性：Scrapy是基于Twisted异步网络库编写的，这意味着它能够同时处理多个请求，大大提高了爬取数据的效率，相比传统的同步爬虫，它可以在相同的时间内获取更多的数据。
可扩展性：Scrapy提供了丰富的扩展接口，开发者可以根据自己的需求添加各种功能，比如自定义中间件、扩展日志记录、调整调度策略等，这使得Scrapy能够适应各种复杂多变的爬虫任务。
强大的数据提取功能：它支持多种数据提取方式，包括XPath、CSS选择器等，能够轻松地从网页中提取出所需的数据，无论是简单的文本内容，还是复杂的表格数据，都能应对自如。
良好的错误处理机制：在爬取数据的过程中，难免会遇到各种异常情况，比如网络请求失败、数据解析错误等。Scrapy内置了完善的错误处理机制，能够自动捕获并处理这些异常，保证爬虫的稳定运行，减少因错误而导致的程序崩溃。

三、安装Scrapy

在开始使用Scrapy之前，我们需要先将其安装到我们的Python环境中。安装过程非常简单，只需要在终端或命令提示符中运行以下命令：

pip install scrapy

安装完成后，我们就可以开始创建自己的Scrapy项目了。

四、创建Scrapy项目

创建Scrapy项目的过程就像搭建一座小房子，我们需要先准备好地基和框架。打开终端或命令提示符，定位到你想要创建项目的目录，然后运行以下命令：

scrapy startproject myspider

这里myspider是你的项目名称，你可以根据自己的喜好来命名。运行命令后，Scrapy会自动创建一个包含基本结构的项目文件夹，其目录结构如下：

myspider/
scrapy.cfg
myspider/
__init__.py
items.py
middlewares.py
pipelines.py
settings.py
spiders/
__init__.py

scrapy.cfg：这是项目的配置文件，用于存储一些全局的配置信息。
myspider/文件夹：这是项目的主目录，包含了项目的核心代码。
- __init__.py：Python模块初始化文件，用于将文件夹标识为一个Python包。
- items.py：定义了项目中需要提取的数据结构，类似于数据库中的表结构。
- middlewares.py：用于定义中间件，中间件可以对请求和响应进行拦截和处理，比如添加代理、修改请求头等。
- pipelines.py：定义了数据存储的管道，用于将提取到的数据存储到本地文件、数据库等地方。
- settings.py：项目的设置文件，用于配置项目的各种参数，比如并发请求的数量、下载延迟等。
- spiders/文件夹：存放爬虫代码的地方，每个爬虫都是一个独立的Python类，负责爬取特定的网站或网页。

五、定义数据结构

在Scrapy中，我们首先需要定义好需要提取的数据结构，这样才能让爬虫知道要抓取哪些数据。打开items.py文件，我们可以定义一个简单的数据结构，比如爬取一个新闻网站的新闻标题和内容。代码如下：

import scrapy

class NewsItem(scrapy.Item):
    title = scrapy.Field()
    content = scrapy.Field()

这里我们定义了一个NewsItem类，它继承自scrapy.Item，然后定义了两个字段title和content，分别用于存储新闻的标题和内容。

六、编写爬虫代码

接下来，我们需要编写爬虫代码来告诉Scrapy如何爬取数据。在spiders/文件夹中，创建一个Python文件，比如news_spider.py，然后编写以下代码：

import scrapy
from myspider.items import NewsItem

class NewsSpider(scrapy.Spider):
    name = 'news'
    allowed_domains = ['news.example.com']
    start_urls = ['http://news.example.com/latest']

    def parse(self, response):
        for news in response.css('div.news-item'):
            item = NewsItem()
            item['title'] = news.css('h2.title::text').get()
            item['content'] = news.css('p.content::text').get()
            yield item

name属性：定义了爬虫的名称，必须是唯一的，用于标识这个爬虫。
allowed_domains属性：定义了允许爬取的域名，Scrapy会自动过滤掉不属于这些域名的请求，防止爬虫爬取到无关的网站。
start_urls属性：定义了爬虫的起始URL，爬虫会从这些URL开始爬取数据。
parse方法：这是爬虫的核心方法，用于解析响应内容并提取数据。我们使用CSS选择器来定位网页中的新闻标题和内容，然后将它们存储到NewsItem对象中，并通过yield语句返回。

七、运行爬虫

现在，我们已经定义好了数据结构和爬虫代码，接下来就可以运行爬虫来获取数据了。在终端或命令提示符中，定位到项目的根目录，运行以下命令：

scrapy crawl news

八、数据存储

除了将数据保存为JSON文件，Scrapy还支持将数据存储到其他地方，比如数据库。我们可以通过修改pipelines.py文件来实现数据存储的管道。以下是一个将数据存储到MySQL数据库的示例代码：

import mysql.connector

class MySQLPipeline:
    def open_spider(self, spider):
        self.conn = mysql.connector.connect(
            host='localhost',
            user='root',
            password='password',
            database='newsdb'
        )
        self.cursor = self.conn.cursor()

    def close_spider(self, spider):
        self.cursor.close()
        self.conn.close()

    def process_item(self, item, spider):
        self.cursor.execute('''
            INSERT INTO news (title, content) VALUES (%s, %s)
        ''', (item['title'], item['content']))
        self.conn.commit()
        return item

open_spider方法：在爬虫启动时被调用，用于初始化数据库连接。
close_spider方法：在爬虫关闭时被调用，用于关闭数据库连接。
process_item方法：每次爬虫提取到一个数据项时，都会调用这个方法，我们将数据插入到数据库中。

在settings.py文件中，需要将MySQLPipeline添加到ITEM_PIPELINES设置中，以便启用这个管道：

ITEM_PIPELINES = {
    'myspider.pipelines.MySQLPipeline': 300,
}

运行爬虫后，爬取到的数据就会被存储到MySQL数据库的news表中。

九、常见问题及解决方案

被反爬虫机制限制：现在很多网站都设置了反爬虫机制，比如限制访问频率、检查请求头等。为了解决这个问题，我们可以在settings.py文件中设置合适的DOWNLOAD_DELAY参数来控制请求的间隔时间，避免过于频繁地访问网站。同时，也可以在middlewares.py文件中自定义请求头，模拟正常的浏览器访问。
动态网页爬取：对于一些使用JavaScript动态加载数据的网页，Scrapy可能无法直接获取到完整的页面内容。这时，我们可以使用Selenium等工具来模拟浏览器行为，获取动态加载后的页面内容，然后将页面内容传递给Scrapy进行解析。
数据提取不准确：如果发现提取到的数据不准确，可能是CSS选择器或XPath表达式写错了。我们需要仔细检查网页的HTML结构，确保选择器能够正确地定位到目标数据。