pdd(拼多多)爬虫js解密anti-content参数解密及全站抓取代码思路实现.zip

共45个文件

py：16个

pyc：10个

js：7个

版权申诉

爬虫

python

数据收集

5星 · 超过95%的资源 116 浏览量 2024-03-01 12:32:14 上传评论 6 收藏 183KB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

pdd (拼多多) 爬虫 js 解密 anti_content 参数解密及全站抓取代码思路实现.zip （45个子文件）

SJT-code

Get_i.js 9KB

1.txt 28KB

pdd.py 1KB

.gitattributes 93B

merge.js 117KB

Get_c.js 18KB

pin_duoduo

scrapy.cfg 263B

.idea

workspace.xml 33KB

pin_duoduo.iml 504B

misc.xml 292B

modules.xml 272B

encodings.xml 135B

run.py 198B

pdd_search.py 1KB

pin_duoduo

utils.py 3KB

__init__.py 0B

pipelines.py 2KB

merge.js 117KB

data

pdd_first.json 22KB

data.json 127KB

work.json 109KB

randomproxy.py 2KB

spiders

__init__.py 161B

pdd.py 3KB

readyWork.py 3KB

__pycache__

pdd.cpython-37.pyc 3KB

__init__.cpython-37.pyc 165B

readyWork.cpython-37.pyc 2KB

items.py 431B

settings.py 3KB

__pycache__

randomproxy.cpython-37.pyc 2KB

items.cpython-37.pyc 406B

pipelines.cpython-37.pyc 3KB

settings.cpython-37.pyc 497B

__init__.cpython-37.pyc 157B

utils.cpython-37.pyc 3KB

middlewares.py 4KB

pdd_sanic

__init__.py 55B

_test.py 354B

merge.js 117KB

run.py 1KB

__pycache__

__init__.cpython-37.pyc 215B

Get_u.js 29KB

README.md 3KB

Get_s.js 53KB

## 更新 ```html !!!拼多多策略修改, 列表页及搜索页都需要在请求头中加 'AccessToken': "登录后的 token", 才可以访问!!! !!!或者 IP 质量较好,直接访问也是可以获取数据的!!! ``` ## 拼多多加密参数解析 ```txt 1.txt -> 测试获取的数据 pdd.py -> python 运行文件 merge.js -> 获取 anti_content 加密参数的 js 合并文件 Get_c Get_i Get_s Get_u 上述四个 js 文件是为了解密 anti_content 参数而需要的 4 个对象(在 merge.js 中已经包含使用, 这里是为了方便查看) ``` #### 测试使用 ```txt 运行代码(会生成 1.txt 文件将获取数据写入): python3 pdd.py 只获取 anti_content 结果: node merge.js ``` ## 全站抓取 #### 步骤一: 获取一级二级分类,并处理 ```txt 文件路径: pin_duoduo/pin_duoduo/utils.py 执行过程: process_first() => 生成 pdd_first.json 文件执行结果: 一级分类二级分类信息保存完成 ``` #### 步骤二: 进行准备工作, 获取三级分类 ```txt 文件路径: pin_duoduo/pin_duoduo/spiders/readyWork.py 执行过程: 通过运行 scrapy 爬虫 readyWork 获取二级分类的首页来获取三级分类 => 生成 work.json 文件执行结果: 三级分类信息保存完成 ``` #### 步骤三: 获取列表数据(只进行到这一步, 没有进详情页, 基本数据在列表页即可获取完成) ```txt 文件路径: pin_duoduo/pin_duoduo/spiders/pdd.py 执行过程: 通过运行 scrapy 爬虫 pdd 循环获取列表数据(测试只获取 5 页数据) => 生成 data.json 文件执行结果: 总体流程完成,数据获取成功 ``` ## 说明 ```python """ pdd_sanic 是使用 sanic 简单写的一个 web 服务, 通过 post api 来获取数据(没有使用) 使用方式: 首先运行 run.py 文件, 然后运行 _test.py 即可看到效果 """ """ pdd_search.py 是搜索接口数据获取的方式, 可以用来帮助改写成按关键字搜索的爬虫 """ """ randomproxy.py 是自定义的 scrapy 中间件, 实现代理更换 | user-agent 更换 | 请求出错时更换代理并重爬等功能, 可以直接将这个中间件应用到其它 scrapy 爬虫项目中 """ """ pipelines.py 中直接使用 scrapy 提供的 exporters.JsonItemExporter 进行数据存储, 并且在存储列表数据时直接将 json 数据保存, 并没有定义 item """ ```

评论收藏

内容反馈

版权申诉