避坑！！！入门scrapy爬虫框架遇到的坑

原创于 2021-09-19 09:49:26 发布 · 267 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#爬虫 #python

爬虫同时被 2 个专栏收录

12 篇文章

订阅专栏

3 篇文章

订阅专栏

本文介绍Scrapy爬虫框架的安装配置过程及基本使用方法，包括依赖模块安装、项目创建与蜘蛛文件设置等内容。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Scrapy爬虫框架，从入门到放弃

最近，感觉我又刑了！

在经过京东反爬的阴影之后，就开始入门Scrapy爬虫框架了。

很难，但获取网页效率也快得多了。

例如，构造一个回调函数便可获取多页，取代了传统的selenium模拟点下一页！

*前奏：在开始scrapy学习之前，需要安装好scrapy所依赖的模块之后，再在cmd输入 pip3 install scrapy ，直接安装scrapy会报错。

scrapy所依赖的模块包括：lxml，pyOpenSSL，Twisted，PyWin32，其中pyOpenSSL，Twisted需要先下载wheel文件，再通过pip安装；PyWin32从官方的网站下载对应的版本即可

pyOpenSSL，Twisted资源：链接：https://pan.baidu.com/s/1GuwJ-UcqEifdt8zg4n4tow
提取码：8888

PyWin32官网：https://sourceforge.net/projects/pywin32/files/pywin32

如何开启一个scrapy项目？
答：scrapy项目通过命令行创建，电脑创建一个scrapy_test文件夹，
打开cmd命令行，切换到scrapy_test文件夹，输入以下命令

scrapy startproject test # test 为想创建项目名

创建完项目后，在test文件夹有很多文件，后面需要用到，找到spider文件夹，并切换到该目录，输入以下命令

scrapy genspider baidu www.baidu.com #所要访问的网站，一般以之为命名

在spider目录下创建一个baidu.py文件，打开看看(先前创了一个，原理同上)。
其中，baidu就相当于name。
在这里插入图片描述

这样，便可正式启动开始一个项目了。

同时，在test文件夹，会发现有items.py,middleware.py，settings.py等文件,根据项目需求可一一配置。

注意：

其中，项目名需要设置source root ，便于后期import 同包文件，这一步非常关键，我居然在这一步搞了半天。

方法：

鼠标右键单击项目名，选择Make Directory as ,选择Resource Root

在这里插入图片描述

结语：以上便是开始学习scrapy需要注意的地方，万事开头难，配置好一切，便可开始学习，从入门到放弃，一起加油！

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。