"IT有得聊”是机械工业出版社旗下IT专业资讯和服务平台,致力于帮助读者在广义的IT领域里,掌握更专业、实用的知识与技能,快速提升职场竞争力。 点击蓝色微信名可快速关注我们!
大数据时代下,爬虫技术逐渐成为一套完整的系统性工程技术,涉及的知识面广,平台多,所用技术趋向多样化,对抗性也日益提升。中科大数据研究院高级工程师,爬虫逆向社区站长李玺老师为我们总结了一份学习路线,读者可以根据自身需要进行知识补强。
学习路线总结
基础学习路线总结:
主语言基础语法
常用网络请求库、解析库
常用抓包工具
自动化工具库
流行采集框架
多进程、多线程、协程、分布式爬虫
采集器管理
Js逆向学习路线总结:
浏览器构造、基础语法、作用域
Bom、Dom属性和方法
调试工具
加密参数定位方法
常见混淆和加密
浏览器环境补充
AST
小程序逆向学习路线总结:
小程序基础架构
小程序语法
反编译工具
代码修复
hook方法
安卓逆向学习路线:
安卓逆向原理
Java、smali、arm语法
常用抓包工具
反编译工具
加密参数定位方法
调试和hook工具
反检测和反调试
加固和脱壳
系统提高
加密算法特征和实现
需要掌握常见加密算法,MD5、AES、DES、RSA、HASH、ECC等在Js和Java代码中的特征及我们的主语言实现方法。
传输协议和通讯协议
一些自定义的协议暂不列出了,总结一下常见的。
传输协议:json、xml、protobuf、tlv 等
通讯协议:http/https、tcp/udp、ws/wss、tls 等
各类验证码识别方法
验证码种类很多,各种验证方式也层出不穷,这里列出常见的验证。
具体解决方法可以到github查找开源识别库。
图文验证码:图文识别、逻辑计算
滑动验证码:缺口拼图、轨迹验证
点选验证码:文字点选、图标点选
逻辑验证码:语义识别、空间推理
短信验证码:接码平台、hook监听
爬虫逆向进阶实战
点击封面可查看图书详情
▊《爬虫逆向进阶实战》
李玺 著
爬虫逆向站长考古学家lx力作
150个知识点、26个实战案例、140分钟视频
本书以爬虫逆向方向的相关技术和岗位要求进行撰写,总结了爬虫的架构体系、主流框架和未来发展。书中包括各种自动化工具、抓包工具、逆向工具的使用。核心内容以Web Js逆向、安卓逆向、小程序逆向为主,结合三十多个实战案例进行分析,内容从易到难,循序渐进。另外还对主流的反爬虫技术进行了讲解,包括传输协议、验证码体系、字符集映射、行为和指纹等。扫描封底二维码,可获得反爬虫补充知识;扫描节中二维码,可获得配套视频讲解知识。
由于想要进阶为高阶爬虫工程师需要了解和掌握的技术内容十分广泛,不局限于编程语言,不拘泥于采集方法,所以,书中内容对于大家所擅长的开发语言并没有要求。
相对于同类图书来说,李玺老师选择去掉那些食之无味的安装教程,秉着让大家多在互联网练习资源检索能力的目的,内容整体从易到难,跳过了细枝末节,更多地在讲述实际应用和解决方法。
章节介绍
26
第一章、第二章:主要讲述爬虫的发展史和爬虫系统的基本架构以及流行爬虫框架和管理框架。虽然所占篇幅不长,但涵盖了进阶时需要掌握的理论和技巧。
第三章:讲述webJS逆向。从基础到进阶由易到难进行梳理。包括基础理论、定位方法、压缩混淆、加密算法、传输协议等,配备不同难度的逆向案例,案例附有视频教程,非常适合大家学习和实战。
第四章、第五章:自动化工具和抓包工具。为大家提供一些工具支持。
第六至十章:主要讲述安卓逆向、小程序逆向和抓包技巧,以及安卓逆向实战案例、验证码识别等。
详细介绍了逆向基础、Hook工具Xposed、Frida、Unidbg 等 以及查壳、脱壳工具的使用,所有介绍的内容都会在实战案例中应用到。
第十一章:主要讲述反爬虫技术和附录的检索技巧补充,本章节收录在图书附赠电子版资源中。
附赠资源
专家推荐
谨以此书献给热爱爬虫逆向的朋友!
-End-