CSS 反爬之字体反爬

「已注销」

已于 2022-10-17 14:25:40 修改

阅读量737

点赞数

CC 4.0 BY-SA版权

分类专栏：爬虫文章标签： css python html

于 2022-10-17 14:21:49 首次发布

本文链接：https://blog.csdn.net/m0_53227339/article/details/127362600

本文介绍了CSS字体反爬的原理，通过自定义字体文件和编码方式防止爬虫抓取网页文本内容。同时，提供了一种利用Pillow和ddddocr库破解字体加密的方法，将字体转换为图片并进行OCR识别，从而获取文字信息。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

CSS 反爬之字体反爬

郑重声明：本项目的所有代码和相关文章，仅用于经验技术交流分享，禁止将相关技术应用到不正当途径，因为滥用技术产生的风险与本人无关。

字体反爬原理

字体反爬也就是自定义字体反爬，通过调用自定义的ttf或woff等文件来渲染网页中的文字，而网页中的文字不再是文字，而是相应的字体编码，通过复制或者简单的采集是无法采集到编码后的文字内容

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>Title</title>
    <style type="text/css">
        @font-face {

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

「已注销」

关注关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

js逆向案例-css字体反爬

十一姐的博客

01-06

3075

目录一、反爬点二、反爬分析1、js逆向解密响应参数2、css字体伪元素分析一、反爬点响应参数js加密， css字体伪元素隐藏二、反爬分析 1、js逆向解密响应参数突破入口，响应数据里面有个eval，所以直接hook eval hook eval步骤1：先根据堆栈回溯打上断点，然后刷新网页断在send断点这个位置，然后控制台输入hook_eval的js，然后取消send的断点，然后F8调试进入下一步步骤2观察：此时已经hook住，断点停在了此位置，这里即给window的一个属性进行了

爬虫技术-字体反爬

shifengboy的博客

09-07

1987

文本混淆章节 1. 文本混淆简介简单而言就是利用前端技术干扰，页面可以正常展示，而使用爬虫下载后无法提取正常的数据。 1.1 常见的干扰方式字体反爬 2. 字体反爬 2.1 字体反爬简介在 CSS3 之前，Web 开发者必须使用用户计算机上已有的字体。目前的技术开发者可以使用@font-face为网页指定字体，开发者可将心仪的字体文件放在 Web 服务器上，并在 CSS 样式中...

参与评论您还未登录，请先登录后发表或查看评论

CSS字体反爬实战，10分钟就能学会

nioii-七仔

08-24

7222

前言本次来解锁新姿势——CSS字体反爬。在解决这个字体反爬的路上，当我以为解决这个反爬手段的时候，最后验证总的答案的时候，被打脸了！！！又被默默设埋伏了，踩了一个坑，巨大的，为何悲伤辣么大 <(－︿－)> 不将html源码页面下载下来还真发现不了在哪写错了，不多说，赶紧来看一下呗~~ 0x01、分析目标网站还是同样的手段，打开F12进行选中数字，查看它的标签内容是什么 ...

字体反爬实战全解析：从原理到企业级解决方案（2025终极指南）

最新发布

KE17RS的博客

06-09

1216

字体反爬实战全解析：从原理到企业级解决方案（2025终极指南）

字体反爬

qq_20033707的博客

08-28

485

字体反爬 1.字体反爬概述随着css技术的发展，在CSS3中出现了一个自定义字体的新特性。在这之前，web设计师必须使用已在用户计算机上安装好的字体。现在，通过CSS3，web设计师可以使用它们喜欢的任意字体。浏览器会下载字体信息，然后动态渲染，html页面源码中，你看到的不再是正常字符，或者unicode而是网站使用的自定义编码。因此它也被拿来作为一种反爬的手段，这就是字体反爬。 2.案例 ...

出现了，css字体反爬！仙草哥哥的大危机？

这是仙草哥哥的博客

06-27

1277

爬虫-------字体反爬

Dexter的博客

11-05

2216

爬虫-------字体反爬

大众点评网css反爬破解

11-07

大众点评网破解css反爬获取评论信息。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。...

汽车之家 css自定义字体反爬解析

qq_38105596的博客

04-15

1772

本文主要是通过哦爬取汽车之家论坛一些用户热门精华帖子，介绍利用前端页面自定义字体的方式来实现反爬的技术手段，来实践破解它。自定义字体：@font-face是CSS3中的一个模块，主要是实现将自定义的Web字体嵌入到指定网页中去。使用了其中一个网址来进行分析：https://club.autohome.com.cn/bbs/thread/d1751c7bd0539de0/79229668-...

大众点评 css反爬解析

qq_38105596的博客

04-12

1445

转载自大众点评还不会爬？跟着我，我教你。谈谈自己跟着写这个的感想吧。关于如何使用requests来爬取大众点评的数据。主要分为以下2步：发现数字出现的规则，css里面的规则，这一步很重要，没有找出规则，无法进行下一步编码解析css，获取评论数、人均价格、口味、服务、环境评分 1.找到css 根据class值 “djaka” 对应的两个像素值，前面的是控制用哪个数字，...

字体反爬识别。。。。。。

12-21

通过knn算法来识别网站的字体。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

python3爬虫 css字体反爬

Songsong

10-30

1388

python爬虫反反爬，你几乎可以横扫大部分 css 字体加密的网站原标题：python爬虫反反爬，你几乎可以横扫大部分 css 字体加密的网站你已经...

字体反爬（一）

qq_44744457的博客

09-06

1539

简单的字体反爬

爬虫 — 字体反爬

记录学习过程，欢迎讨论交流~

09-21

2472

安装字体软件 FontCreator、百度智能云文字识别、安装 Tesseract

字体反爬：编码、矢量图(字形)、字符(字体)、OCR

热门推荐

freeking101的博客

08-17

1万+

字体反爬也就是自定义字体反爬，通过调用自定义的ttf文件来渲染网页中的文字，而网页中的文字不再是文字，而是相应的字体编码，通过复制或者简单的采集是无法采集到编码后的文字内容！

py字体反爬

03-09

### Python 中字体反爬技术的实现方法 #### 使用 Network 查看并分析字体请求对于一些网站采用字体文件形式进行数据加密的情况，可以通过浏览器开发者工具中的 `Network` 面板来查找加载的字体资源。这种方法虽然可能较为隐蔽不易被察觉，但对于熟悉开发工具的人来说并不复杂[^1]。 ```python import requests def get_font_file(url): response = requests.get(url) with open('font.woff', 'wb') as file: file.write(response.content) url = "http://example.com/path/to/font/file" get_font_file(url) ``` 此代码片段展示了如何利用 `requests` 库下载指定 URL 的字体文件到本地环境。 #### 处理基于图片加 CSS 实现的字体反爬当遇到像自如这样的平台使用图像配合样式表（CSS）背景位置属性模拟字符显示时，则需解析网页上的 HTML 和 CSS 文件以定位这些特殊处理过的元素及其对应的视觉表现方式[^2]。 #### 解析自定义字体映射关系如果目标网站确实应用了 WebFont 或其他类型的矢量字库来进行内容混淆，在获取到相应 `.ttf`, `.woff` 等格式的字体包之后，下一步便是建立原始编码与实际意义之间的转换逻辑。这通常涉及到读取 @font-face 定义以及 font-family 属性值，并尝试匹配已知的标准字体集或者借助第三方服务完成解码工作[^3]。 ```python from bs4 import BeautifulSoup import re html_content = "<HTML CONTENT HERE>" soup = BeautifulSoup(html_content, 'lxml') style_tags = soup.find_all('style') for tag in style_tags: css_text = str(tag.string or '') matches = re.findall(r'@font-face\s*\{([^}]*)\}', css_text) for match in matches: print(match.strip()) ``` 上述脚本可以用来提取页面内的所有 `@font-face` 声明部分，为进一步研究提供了基础材料。