【Python爬虫】破解AES加密接口

置顶青见丑橘

于 2025-08-04 09:58:17 发布

阅读量1.5k

点赞数 39

CC 4.0 BY-SA版权

文章标签：人工智能 Ai赋能算法爬虫 AES加密

本文链接：https://blog.csdn.net/u012210662/article/details/149898876

1. AES加密技术与爬虫的交锋

AES（高级加密标准，Advanced Encryption Standard）是一种广泛使用的对称加密算法，常用于保护Web接口的数据安全。许多网站通过加密API返回的数据来防止未经授权的访问或爬虫抓取。对于Python爬虫开发者来说，遇到AES加密接口是一个常见的挑战。本文将从基础入手，逐步深入，教你如何使用Python破解AES加密接口，获取隐藏的明文数据。

AES加密的核心在于对称性：加密和解密使用同一个密钥。它通常配合初始化向量（IV）使用，以增加随机性，避免相同的明文生成相同的密文。在爬虫中，我们需要识别加密方式、提取密钥和IV，并编写代码解密数据。接下来，我们将从准备工作开始，逐步展开技术细节。

2. 准备工作：工具与基础知识

在开始之前，我们需要安装一些必要的Python库：

requests：用于发送HTTP请求，获取加密数据。
pycryptodome：强大的加密库，支持AES解密。

安装命令如下：

pip install requests pycryptodome

了解AES加密的基本概念也很重要：

密钥（Key）：用于加密和解密的字符串，通常是16、24或32字节（对应AES-128、AES-192、AES-256）。
初始化向量（IV）：一个随机字符串，通常16字节，用于增加加密的随机性。
加密模式：常见的有CBC（Cipher Block Chaining）和ECB（Electronic Codebook）。CBC模式更常见，需要IV。

准备好工具和基础知识后，我们进入实际操作。

3. 分析加密接口：从抓包到识别

破解AES加密的第一步是分析目标接口。假设我们要抓取某个网站的API数据，步骤如下：

抓包：使用浏览器的开发者工具（F12）或Fiddler、Charles等工具，捕获网络请求。
识别加密：查看响应数据。如果数据是Base64编码的，且长度是16的倍数，很可能是AES加密。
查找加密逻辑：打开网页的JavaScript文件，搜索与加密相关的关键词，如CryptoJS、AES.encrypt等。

例如，假设我们抓到一个API请求：

URL：https://example.com/api/data
返回数据："U2FsdGVkX1+abc123xyz..."（Base64编码）

这种格式提示可能是AES加密。我们需要进一步分析JavaScript代码，找到密钥和IV。

4. AES解密原理与Python实现

AES解密的原理很简单：用相同的密钥和IV对密文进行逆向操作。以下是一个基础的Python解密示例：

from Crypto.Cipher import AES
import base64

def decrypt_aes(ciphertext, key, iv):
    # 创建AES对象，CBC模式
    cipher = AES.new(key.encode('utf-8'), AES.MODE_CBC, iv.encode('utf-8'))
    # 解码Base64并解密
    decrypted = cipher.decrypt(base64.b64decode(ciphertext))
    # 移除填充并返回明文
    return decrypted.rstrip(b'\x00').decode('utf-8')

# 示例数据
ciphertext = "U2FsdGVkX1+abc123xyz..."
key = "1234567890abcdef"
iv = "abcdef1234567890"
result = decrypt_aes(ciphertext, key, iv)
print(result)

代码解析

AES.new()：创建AES解密对象，指定密钥、模式和IV。
base64.b64decode()：将Base64编码的密文转为字节。
rstrip(b'\x00')：移除填充字节（AES加密常使用PKCS5/PKCS7填充）。

如果密钥和IV已知，这个代码就能直接解密。但在真实场景中，它们往往是动态生成的，接下来我们解决这个问题。

5. 处理动态密钥和IV

很多网站的密钥和IV不是固定的，而是通过JavaScript动态生成。我们需要从前端代码中提取它们。以下是具体方法：

5.1 分析JavaScript代码

假设目标网站的加密逻辑在main.js中，我们可能找到这样的代码：

var key = "dynamicKey123456";
var iv = "dynamicIV1234567";
var encrypted = CryptoJS.AES.encrypt("data", key, { iv: iv });

我们需要：

定位密钥和IV：搜索key、iv或CryptoJS.AES.encrypt。
提取值：手动记录或通过爬虫模拟执行JavaScript。

5.2 使用Python执行JavaScript

如果密钥由复杂的逻辑生成，可以使用PyExecJS执行JavaScript代码：

pip install PyExecJS

示例代码：

import execjs

# JavaScript代码
js_code = """
function generateKey() {
    return "dynamicKey123456";
}
function generateIV() {
    return "dynamicIV1234567";
}
"""

# 编译并调用
ctx = execjs.compile(js_code)
key = ctx.call("generateKey")
iv = ctx.call("generateIV")
print(f"Key: {key}, IV: {iv}")

5.3 从请求中提取

有时密钥和IV会通过请求参数或Cookie传递。检查网络请求的Headers或Payload，可能找到类似key=xxx&iv=yyy的内容。

6. 实际案例分析：破解一个加密接口

让我们以一个虚构的网站https://fakeapi.com为例，逐步破解其AES加密接口。

6.1 抓包与分析

通过开发者工具，我们捕获到一个请求：

URL：https://fakeapi.com/api/user
返回数据："G5K8mX9pQ2L1zT7rY4vN3w=="

数据是Base64编码，解码后长度为16字节，符合AES-CBC特征。

6.2 查找加密逻辑

在app.js中找到：

var key = "mysecretkey12345";
var iv = "1234567890abcdef";
var data = CryptoJS.AES.encrypt(JSON.stringify({id: 1}), key, { iv: iv });

密钥和IV是固定的，直接提取。

6.3 编写解密代码

根据抓到的数据，编写Python脚本：

from Crypto.Cipher import AES
import base64

def decrypt_aes(ciphertext, key, iv):
    cipher = AES.new(key.encode('utf-8'), AES.MODE_CBC, iv.encode('utf-8'))
    decrypted = cipher.decrypt(base64.b64decode(ciphertext))
    return decrypted.rstrip(b'\x00').decode('utf-8')

# 数据
ciphertext = "G5K8mX9pQ2L1zT7rY4vN3w=="
key = "mysecretkey12345"
iv = "1234567890abcdef"

result = decrypt_aes(ciphertext, key, iv)
print(f"解密结果: {result}")

运行后输出：

解密结果: {"id": 1}

成功获取明文数据！

6.4 自动化爬取

将解密逻辑融入爬虫：

import requests
from Crypto.Cipher import AES
import base64

def decrypt_aes(ciphertext, key, iv):
    cipher = AES.new(key.encode('utf-8'), AES.MODE_CBC, iv.encode('utf-8'))
    decrypted = cipher.decrypt(base64.b64decode(ciphertext))
    return decrypted.rstrip(b'\x00').decode('utf-8')

url = "https://fakeapi.com/api/user"
key = "mysecretkey12345"
iv = "1234567890abcdef"

response = requests.get(url)
encrypted_data = response.text
decrypted_data = decrypt_aes(encrypted_data, key, iv)
print(f"爬取结果: {decrypted_data}")

7. 高级技巧：应对复杂场景

7.1 动态密钥的逆向工程

如果密钥由时间戳或用户ID生成，可以通过以下步骤破解：

观察规律：多次抓包，记录密钥变化。
模拟生成：用Python重现生成逻辑。例如：

import time

def generate_dynamic_key():
    timestamp = str(int(time.time()))
    return (timestamp + "abc123")[:16]  # 模拟密钥生成

key = generate_dynamic_key()
print(f"动态密钥: {key}")

7.2 处理加密混淆

有些网站会混淆加密逻辑，使用eval或webpack打包。这时需要：

使用Node.js解包代码。
借助工具如javascript-obfuscator逆向分析。

7.3 绕过反爬机制

为避免被封禁：

代理IP：使用requests配合代理池。
随机UA：借助fake-useragent库。

from fake_useragent import UserAgent

ua = UserAgent()
headers = {"User-Agent": ua.random}
response = requests.get(url, headers=headers)

8. 注意事项与最佳实践

合法性：仅在授权范围内抓取数据，遵守法律法规。
性能优化：设置请求间隔（如time.sleep(1)），避免给服务器造成压力。
异常处理：为解密失败添加try-except，确保程序健壮性。

示例：

try:
    result = decrypt_aes(ciphertext, key, iv)
except Exception as e:
    print(f"解密失败: {e}")

希望这篇文章对你有所启发，祝你在爬虫开发的道路上越走越远！