scrapy_cffi：完全异步，scrapy框架的 asyncio + curl_cffi 重构

最新推荐文章于 2025-08-31 18:30:35 发布

原创最新推荐文章于 2025-08-31 18:30:35 发布 · 607 阅读

CC 4.0 BY-SA版权

文章标签：

4 篇文章

订阅专栏

3 篇文章

订阅专栏

不管做什么爬虫，最终架构往往都会朝 Scrapy 方向靠拢。但随着 Scrapy 框架的发展，一些底层功能已经不那么容易修改，尤其是：

即便在新版本 Scrapy 中，官方也在逐步迁移底层架构，但仍存在一定局限。对于曾经的 Twisted 异步请求库，底层扩展更是受限。

为什么重写 Scrapy

基于上述原因，我重写了 Scrapy 框架，目标是：

为什么选择 curl_cffi 而非 Twisted

传统 Scrapy 架构模块化，爬虫、调度器和中间件是解耦的，但 下载器层依赖 Twisted：

现代化爬虫则采用 请求库 + 调度解耦 的架构：

请求库独立，可以自由选择，如 curl_cffi：1.基于 libcurl，性能快 2.支持 TLS 3.API 类似 requests，易用性高
调度独立，负责任务管理和异步调度
优点：方便替换请求库、灵活扩展协议
缺点：更依赖底层请求库的稳定性

相关文档在 github 的 docs/ 下配套。

安装：

pip install scrapy_cffi

快速构建：

# 新建项目
scrapy-cffi startproject <project_name>

cd <project_name>

# 生成爬虫
scrapy-cffi genspider <spider_name> <domain>

# 运行爬虫
python runner.py