这 4 个神级开源爬虫神器,太牛批了啊。

01

专为 AI 准备的爬虫神器

这个应该是 GitHub 上 Star 最多的爬虫开源项目了,斩获 47K Star。

Crawl4AI 是专为 AI 设计的开源网页爬虫与解析工具,稳居 GitHub 爬虫神器首位。

它以比传统方案快 6 倍,性能极速。能够输出对 AI 友好的数据格式(Markdown),爬取后可以直接怼到 AI 进行训练,

同时支持灵活的浏览器控制能力,完全开源,支持 Docker 一键部署,相当炫酷。

开源地址:https://github.com/unclecode/crawl4ai

02

自媒体平台爬虫神器

这个自媒体平台爬虫神器,太火了,现在已经在 GitHub 上斩获 23.8K 的 Star。

它功能非常强大,支持这些平台内容的一键爬取:

小红书爬虫,抖音爬虫, 快手爬虫, B站爬虫, 微博爬虫百度贴吧爬虫知乎爬虫。

除了爬帖子,还支持创作者主页和评论信息,而且还能把评论一键生成词云图,炫酷极了。

而且开发者提供了详细的部署使用方法,快去瞧瞧吧。

开源地址:https://github.com/NanmiCoder/MediaCrawler教程:https://nanmicoder.github.io/MediaCrawler/

03

可视化爬虫

不用写一行代码,这个开源的可视化爬虫软件,已经在 GitHub 上获得 39K 的Star。

开源地址:https://github.com/NaiboWang/EasySpider

打开你想要采集的网页,直接用鼠标右键点击你感兴趣的内容,软件会弹出菜单,告诉你可以对这个内容做什么操作,比如采集数据。

点击后软件就会像一个小机器人一样,自动帮你把网页上所有选定的信息抓取下来,并且整理成清晰的结构化数据。

相当方便啊。

EasySpider 就是一个让你无需编程知识,通过鼠标点点选选就能轻松抓取网页数据的可视化工具。

真正实现了「所见即所得」的数据采集,如果你有从网页上收集信息的需求,它绝对值得你一试!

04

动化浏览器插件

GitHub 斩获 18.9K 的 Star!

Automa 是一款开源的浏览器插件,它可以通过可视化拖拉拽的方式配置浏览器自动化操作,根本不需要写代码。

Automa screenshot

拖拖拽拽,就能搞出来一个自动化流程,帮你网页数据抓取、表单自动填充、重复执行任务、屏幕截图及定时任务调度等。

开源地址:https://github.com/AutomaApp/automa

而且有很多现成的工作流模板,套上就能用很方便。

05

都看到这了,关注下吧。

这个公众号历史发布过很多有趣的开源项目,如果你懒得翻文章一个个找,你直接关注微信公众号:逛逛 GitHub ,后台对话聊天就行了。

#逛逛GitHub #开源 #GitHub #爬虫

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值