最近发现一个爬虫开源项目weixin_crawler

最近发现一个爬虫开源项目weixin_crawler

weixin_crawler

weixin_crawler是一款使用Scrapy、Flask、Echarts、Elasticsearch等实现的微信公众号文章爬虫,自带分析报告和全文检索功能,几百万的文档都能瞬间搜索。weixin_crawler设计的初衷是尽可能多、尽可能快地爬取微信公众的历史发文

https://github.com/itcjf/weixin_crawler

主要特点

  1. 使用Python3编写
  2. 爬虫框架为Scrapy并且实际用到了Scrapy的诸多特性,是深入学习Scrapy的不错开源项目
  3. 利用Flask、Flask-socketio、Vue实现了高可用性的UI界面。功能强大实用,是新媒体运营等岗位不错的数据助手
  4. 得益于Scrapy、MongoDB、Elasticsearch的使用,数据爬取、存储、索引均简单高效
  5. 支持微信公众号的全部历史发文爬取
  6. 支持微信公众号文章的阅读量、点赞量、赞赏量、评论量等数据的爬取
  7. 自带面向单个公众号的数据分析报告
  8. 利用Elasticsearch实现了全文检索,支持多种搜索和模式和排序模式,针对搜索结果提供了趋势分析图表
  9. 支持对公众号进行分组,可利用分组数据限定搜索范围
  10. 原创手机自动化操作方法,可实现爬虫无人监管
  11. 反爬措施简单粗暴

使用到的主要工具

语言Python3.6
前端web框架Flask / Flask-socketio / gevent
js/css库Vue / Jquery / W3css / Echarts / Front-awsome
后端爬虫Scrapy
存储Mongodb / Redis
索引Elasticsearch
UI主界面

1

添加公众号爬取任务和已经爬取的公众号列表

1

公众号历史文章列表

如果大家有用过的或对爬虫,搜索引擎感兴趣,欢迎一起交流学习。

尾声 - 持续学习

好了,今天就到这儿吧,小伙伴们点赞、收藏、评论,一键三连走起呀,我们评论见,评论区告诉我还需要补哪些知识点哈 ~~ 🌹🌹🌹

点赞、收藏、评论,一键三连走起呀

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

蔡俊锋

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值