避坑!!!入门scrapy爬虫框架遇到的坑

本文介绍Scrapy爬虫框架的安装配置过程及基本使用方法,包括依赖模块安装、项目创建与蜘蛛文件设置等内容。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Scrapy爬虫框架,从入门到放弃

最近,感觉我又刑了!

在经过京东反爬的阴影之后,就开始入门Scrapy爬虫框架了。

很难,但获取网页效率也快得多了。

例如,构造一个回调函数便可获取多页,取代了传统的selenium模拟点下一页!

*前奏在开始scrapy学习之前,需要安装好scrapy所依赖的模块之后,再在cmd输入 pip3 install scrapy ,直接安装scrapy会报错。

scrapy所依赖的模块包括:lxml,pyOpenSSL,Twisted,PyWin32,其中pyOpenSSL,Twisted需要先下载wheel文件,再通过pip安装;PyWin32从官方的网站下载对应的版本即可

pyOpenSSL,Twisted资源:链接:https://pan.baidu.com/s/1GuwJ-UcqEifdt8zg4n4tow
提取码:8888

PyWin32官网:https://sourceforge.net/projects/pywin32/files/pywin32

如何开启一个scrapy项目?
答:scrapy项目通过命令行创建,电脑创建一个scrapy_test文件夹,
打开cmd命令行,切换到scrapy_test文件夹,输入以下命令

scrapy startproject test # test 为想创建项目名

创建完项目后,在test文件夹有很多文件,后面需要用到,找到spider文件夹,并切换到该目录,输入以下命令

scrapy genspider baidu www.baidu.com #所要访问的网站,一般以之为命名

在spider目录下创建一个baidu.py文件,打开看看(先前创了一个,原理同上)。
其中,baidu就相当于name。
在这里插入图片描述

这样,便可正式启动开始一个项目了。

同时,在test文件夹,会发现有items.py,middleware.py,settings.py等文件,根据项目需求可一一配置。

注意:

其中,项目名需要设置source root ,便于后期import 同包文件,这一步非常关键,我居然在这一步搞了半天。

方法:

鼠标右键单击项目名,选择Make Directory as ,选择Resource Root

在这里插入图片描述

结语:以上便是开始学习scrapy需要注意的地方,万事开头难,配置好一切,便可开始学习,从入门到放弃,一起加油!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值