程序猿阿三
Good ideal worth spreading
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
windows 应用爬虫: exe自动操作
之前写了那么多关于手机和网页爬取,今天就写一期关于exe的爬取,exe的爬取其实也是类似的,一个方式是抓包,还有一个模拟人工界面获取元素数据。抓包肯定是最直接,数据也是最全的, 有些数据不一定会显示在界面上,或者必须通过一定交付方式,才能显示到页面(比如移动鼠标到具体元素上)。本文依旧采用python方式,先说说怎么通过界面方式驱动应用点击和数据获取。原创 2025-07-11 15:19:59 · 352 阅读 · 0 评论 -
windows exe爬虫:exe抓包
在不知情所拦截应用使用的流量时,所以建议用Wireshark。本文利用python代码,实现自动拦截,写入pcap包,并用代码分析流量的协议。这样会在本地目录下生成capture_inbound.pcap,可以用wireshark分析,也可以利用python代码进行分析,如果使用python代码进行分析,需要借助pyshark或者scapy。使用的python WinDivert的包,当然前提也是需要安装Wireshark软件,设置环境变量,并安装pydirvert包。原创 2025-07-11 15:19:21 · 102 阅读 · 0 评论 -
App爬虫实战篇-以华为真机手机爬取集换社的app为例
在开始学习这篇文章之前,建议你先按照之前2篇文章(和),配置必要的环境,才可以继续完成本章节内容。原创 2025-07-05 12:39:14 · 299 阅读 · 0 评论 -
App爬虫工具篇-appium配置
接着上篇文章,安装好了之后,还是不够的,要让其能够驱动手机端,还需要配置。这节课就深入说说如何配置Appium。原创 2025-07-05 11:16:36 · 551 阅读 · 0 评论 -
App爬虫工具篇-Appium安装
摘要:本文探讨了使用mitmproxy进行App接口数据抓取时遇到的加密问题。作者通过实际案例展示了一个加密后的接口数据样本,并指出当前许多应用会对接口进行加密处理,增加了数据抓取的难度。文章主要面向需要破解加密接口的爬虫开发者,提供了实际问题场景的参考案例,为后续讨论接口解密方法做铺垫。全文以技术实践为导向,重点呈现了加密接口数据的真实样貌。原创 2025-07-03 15:57:58 · 193 阅读 · 0 评论 -
App爬虫工具篇-mitmproxy
mitmproxy 是一个支持 HTTP 和 HTTPS 的抓包程序,类似 Fiddler、Charles 的功能,它通过控制台的形式和ui界面的方式此外,mitmproxy 还有两个关联组件,一个是 mitmdump,它是 mitmproxy 的命令行接口,利用它可以对接 Python 脚本,实现监听后的处理;另一个是 mitmweb,它是一个 Web 程序,通过它以清楚地观察到 mitmproxy 捕获的请求。原创 2025-04-22 21:39:58 · 470 阅读 · 0 评论 -
DeepSeek如何助力亚马逊爬虫工具的效率
之前写过几篇文章,我们通常会使用关键词去搜索商品或者商家信息,但是用什么关键词,用户常常拍脑袋。所以这篇文章结合实践,给大家讲解一下,如何利用大模型,如DeepSeek-R1(其他大模型,如ChatGPT也是类似的)。原创 2025-04-03 11:35:37 · 242 阅读 · 0 评论 -
应用篇| 抓包工具-charles的使用
上文说到,我们app爬虫要借助一些抓包工具,本节课就教大家如何使用抓包工具分析app的流量。抓包工具的使用是app爬虫的必修课。相比 Fiddler 来说,Charles 的功能更强大,而且跨平台支持更好。原创 2025-03-11 21:25:59 · 138 阅读 · 0 评论 -
数据篇| App爬虫入门(一)
App 的爬取相比 Web 端爬取更加容易,反爬虫能力没有那么强,而且数据大多是以 JSON 形式传输的,解析更加简单。在 Web 端,我们可以通过浏览器的开发者工具监听到各个网络请求和响应过程,在 App 端如果想要查看这些内容就需要借助抓包软件。我们可以通过设置代理的方式将手机处于抓包软件的监听之下,这样便可以看到 App 在运行过程中发生的所有请求和响应了,相当于分析 Ajax 一样。如果请求无法分析出来有规律,可以借用mitmdump 工具进行直接处理数据。原创 2025-03-11 15:48:56 · 684 阅读 · 0 评论 -
开源篇| 等不及Manus的邀请码......
其中最大2个插件,Claude厂商Anthropic去年上线的computer-use(操作电脑),以及YC投资的项目browser-use(操作浏览器),都给OpenManus提供了基础支持。这两个开源产品个人还没深入使用,大家可以快速使用在自己的业务场景(比如AI爬虫、文章多媒体发布),看是否能达到预期的目标。Manus 非常棒,但 OpenManus 无需邀请码即可实现任何创意, 他们来自MetaGPT 的团队成员,一个完全免费、无需排队等待的OpenManus。原创 2025-03-07 22:06:43 · 105 阅读 · 0 评论 -
亚马逊爬虫实战:亚马逊评论数据获取(基于Helium10 插件)
基于 Helium 10 的谷歌插件爬取亚马逊的评论记录。原创 2025-02-09 17:10:34 · 485 阅读 · 0 评论 -
亚马逊爬虫实战:中国商家信息(电话)爬取
import os), # 保存图片的路径# 搜索关键词"keywords":["毛巾","衣服"],"product_number": 1000000000000000, # 分页获取数量# 和url一一对应 个数要一样"remarks": ["备注1"],# 以下内容非专业人员请勿更改,请找开发人员更改. 对应的是amazon_product_url_setting文件中名称.},原创 2025-02-09 15:37:27 · 970 阅读 · 0 评论 -
分布式爬虫scrapy-redis
Scrapy 爬虫,虽然爬虫是异步加多线程的,但是我们只能在一台主机上运行,所以爬取效率还是有限的,分布式爬虫则是将多台主机组合起来,共同完成一个爬取任务,这将大大提高爬取的效率。原创 2024-12-23 16:02:35 · 635 阅读 · 0 评论 -
scrapy 融合selenium
假设这里我们定义了 6 个 Field,也就是 6 个字段。原创 2024-12-23 15:49:08 · 373 阅读 · 0 评论 -
scrapy实战之新浪新闻爬虫
数据是分析工作的前提,新闻数据对于一些领域分析是必不可少的资料之一,今天我们就借助scrapy框架一起看一下新浪新闻爬虫实战。原创 2024-12-18 22:22:36 · 335 阅读 · 0 评论 -
scrapy框架
Scrapy 是一个基于 Twisted 的异步处理框架,是纯 Python 实现的爬虫框架,其架构清晰,模块之间的耦合程度低,可扩展性极强,可以灵活完成各种需求。只需要定制开发几个模块就可以轻松实现一个爬虫。并能扩展相关爬虫插件,实现分布式爬虫。原创 2024-12-18 16:41:21 · 268 阅读 · 0 评论 -
亚马逊反爬二之限流
毕竟,软件系统的处理能力是有限的。限流可能会导致用户的请求无法被正确处理或者无法立即被处理,不过,这往往也是权衡了软件系统的稳定性之后得到的最优解。然而在爬虫过程中, 难免也会遇到网站的爬虫, 之前在亚马逊爬虫过程, 就会发现来限流, 表现特征就是,网站页面上只有“Request was throttled”这一段话, 其余位置都是空白的,这种情况,只能不断尝试刷新页面,来获得最新页面出来。最常见就是我们在临近春节的时候, 上12306上面进行购票, 一个大型网站如亚马逊,也会通过限流,来避免网站的崩溃.原创 2024-11-28 13:23:11 · 539 阅读 · 0 评论 -
亚马逊反爬一之简单验证码
验证码就是反爬的方式之一,不过随着爬虫技术,反爬验证码也越来越复杂,今天这篇问题,我们仅仅讨论这种简单验证码在程序中自动识别.这种验证码本质是一张图片, 需要用ocr技术,自动识别其中字符,然后填写进去, 现在ocr技术已经很成熟, 可用的库也是非常多,以下就是常见的python ocr的包。当然,除了上面的方法, 还有一种提高识别准确率, 那就是多个ocr组合识别, 这种相对比较耗时,仅供参考。原创 2024-11-27 11:35:07 · 1002 阅读 · 0 评论 -
理论篇| 移动端爬虫
APP逆向技术是指通过反编译、调试等手段,获取APP的内部逻辑、数据结构、加密算法等信息,进而实现对APP功能的扩展或数据抓取。APP逆向技术主要涉及以下几个方面:反编译技术:将APP的二进制文件转换回源代码,便于分析和理解。动态调试技术:在APP运行过程中,通过插入断点、查看变量值等手段,实时了解APP的运行状态。加密算法分析:针对APP中可能存在的加密算法,进行分析和破解。原创 2024-10-12 10:14:22 · 922 阅读 · 0 评论 -
电商选品/跟卖| 亚马逊卖家精灵爬虫
(SellerSprite)基于大数据和人工智能技术,精准查询每个产品的销量、关键词、自然搜索数据,为亚马逊跨境卖家提供一站式选品、市场分析、关键词优化、产品监控等, 基于买家精灵跟卖,可谓事半功倍, 如何利用买家精灵, 快速获取跟卖信息.原创 2024-10-09 17:34:28 · 1301 阅读 · 0 评论 -
电商选品/跟卖| 亚马逊商品类爬取
电商跟卖,最重要是了解哪些商品可以卖, 哪些商品不能卖, 为了更好了解商品信息,我们会经常爬取商品类目的信息.原创 2024-10-08 15:50:27 · 537 阅读 · 0 评论 -
电商选品/跟卖| 亚马逊商品价格实时爬取、计算、更改
背景: 人为更改商品价格太慢,无法做到实时最低,根据网页实时计算最后价格原创 2024-10-08 15:18:00 · 436 阅读 · 0 评论 -
电商选品/分析| 亚马逊常见插件爬虫实战之-helium插件
插件爬虫相当于二次爬虫,二次加工信息,因为大部分插件信息也是从正规网上去获取数据,这次列举helium插件爬虫案例,其他插件爬虫也是类似这个方式.原创 2024-09-30 17:56:42 · 1095 阅读 · 0 评论 -
电商选品/跟卖| 亚马逊首页关键词获取商品信息
3、获取商品详细信息。原创 2024-09-26 15:34:43 · 152 阅读 · 0 评论 -
工具对比篇| Playwright vs seleium
Selenium和play wright都是作为ui自动化的工具, 很方便让我们获取交互页面的信息,对于初学者和开发者,他们两个选型,往往陷入抉择, 今天就带大家一起从角度对比这两个框架.Selenium的优点是灵活性高、用户群体大、学习资料多,缺点是需要自己封装或者导入其他模块来实现一些功能,启动速度慢,稳定性差, 但好在生态好.Playwright的优点是简单方便、功能强大、稳定性高,缺点是相对新,用户群体少,学习资料少。原创 2024-09-26 15:12:57 · 1492 阅读 · 0 评论 -
数据篇| 关于Selenium反爬杂谈
使用Selenium去爬虫的时候,Webdriver会向服务端发送一些信息, 用来说明这个请求是自动发起,WebDriver 预计将具有像 window.navigator.webdriver 这样的属性,这些属性是 W3C WebDriver 规范强制要求的,以实现更好的可测试性并作为一项安全功能。seleinum作为爬虫方式之一,相对requests接口方式,有它方便的地方, 无需了解、构造接口请求, 也有它不足的点,Selenium启动浏览器和测试套件需要时间和资源,因此不适合大规模的并发请求。原创 2024-09-20 09:06:02 · 1632 阅读 · 0 评论 -
介绍篇| 爬虫工具介绍
网络爬虫工具本质上是自动化从网站提取数据的软硬件或服务。它简化了网络爬虫,使信息收集变得更加容易。如今是数据和智能化时代, 如何快速、自动化获取数据, 成了个人或者企业进入智能化时代的第一步.原创 2024-09-26 13:40:31 · 1053 阅读 · 0 评论 -
亚马逊工具-用户使用手册
本工具支持windows、mac、linux等电脑运行.点击校验按钮, 秘钥框自动出现一串字符,如下图:将以上秘钥复制出来,发送[email protected] 进行按时间(按天、按月、按年)购买. 你将得到真正的秘钥如下:原创 2024-08-20 10:44:58 · 420 阅读 · 0 评论