- 博客(8)
- 收藏
- 关注
原创 Scrapy-Redis分布式爬虫
当我们了解了Scrapy爬虫框架的用法过后,这些框架都是在同一台主机上运行的,爬取效率比较有限。如果能够用多台主机协同爬取,那么爬取效率必然会成倍增长,这就是分布式爬虫的优势。这里我们就来了解一下分布式爬虫的基本原理,以及 Scrapy 实现分布式爬虫的流程。
2024-06-23 16:01:36
2732
1
原创 大数据实战项目-招聘网站职位分析
本项目是以国内某互联网招聘网站全国范围内的大数据相关招聘信息作为基础信息,其招聘信息能较大程度地反映出市场对大数据相关职位的需求情况及能力要求,利用这些招聘信息数据通过大数据分析平台重点分析一下几点:分析大数据职位的区域分布情况分析大数据职位薪资区间分布情况分析大数据职位相关公司的福利情况分析大数据职位相关公司技能要求情况。
2024-06-11 13:33:09
2170
原创 Linux环境下下载mysqlclient失败解决办法
我在linux环境下载进行pip install mysqlclient时候会尝试所有版本并且下载失败。在mysqlclient下载官网上找到解决办法。在Red Hat/Centos系统下。下载前我们需要先下载一些包。在Ubuntu系统下。
2024-06-09 17:29:26
377
2
原创 异步爬虫(附爬取表情包实例)
异步爬虫是一种利用异步编程技术实现的网络爬虫程序。相比于传统的同步爬虫,异步爬虫在数据获取和处理方面具有更高的效率和灵活性。我们用一个简单的异步爬虫实例,用于抓取表情包网站上面的表情包。
2023-11-09 18:35:24
848
1
原创 Hadoop的安装实验报告
如果读者正在使用Linux操作系统,则不需要了解Windows系统上的Linux虚拟机安装方法;鉴于目前很多读者正在使用Windows操作系统,因此,为了完成本书的后续实验,这里有必要通过本实验让读者掌握在Windows操作系统上搭建Linux虚拟机的方法。VMware Workstation Player软件的下载地址: https://www.vmware.com/products/workstation-player/workstation-player-evaluation.html。
2023-05-12 18:44:33
9087
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人