更多内容请见: 爬虫和逆向教程-专栏介绍和目录
文章目录
1. 反爬机制概述
CSS位置偏移反爬
是一种常见的反爬虫技术,通过CSS样式将网页内容的位置进行偏移,使得爬虫难以直接获取正确的文本内容。这种技术通常用于保护网页上的敏感信息或防止自动化工具抓取数据。
2. 反爬原理
CSS偏移:指网站通过JavaScript动态修改页面元素的style属性,如top、left、margin、padding等,使元素在页面上的位置不断变化。这种动态变化使得基于固定定位的爬虫难以准确抓取目标数据。
伪元素:使用::before和::after伪元素插入额外的字符或内容,干扰爬虫的解析。
字体加密:结合自定义字体,使得字符的显示与实际编码不一致,增加解析难度。
反爬原理:
-
动态渲染
:网站使用JavaScript在客户端动态渲染页面,元素的最终位置只有在页面加载完成后才能确定。 -
随机偏移
:元素的位置可能每次加载时都有所不同,增加了定位难度。