## 更新
```html
!!!拼多多策略修改, 列表页及搜索页都需要在请求头中加 'AccessToken': "登录后的 token", 才可以访问!!!
!!!或者 IP 质量较好,直接访问也是可以获取数据的!!!
```
## 拼多多加密参数解析
```txt
1.txt -> 测试获取的数据
pdd.py -> python 运行文件
merge.js -> 获取 anti_content 加密参数的 js 合并文件
Get_c
Get_i
Get_s
Get_u
上述四个 js 文件是为了解密 anti_content 参数而需要的 4 个对象(在 merge.js 中已经包含使用, 这里是为了方便查看)
```
#### 测试使用
```txt
运行代码(会生成 1.txt 文件将获取数据写入):
python3 pdd.py
只获取 anti_content 结果:
node merge.js
```
## 全站抓取
#### 步骤一: 获取一级二级分类,并处理
```txt
文件路径: pin_duoduo/pin_duoduo/utils.py
执行过程: process_first() => 生成 pdd_first.json 文件
执行结果: 一级分类二级分类信息保存完成
```
#### 步骤二: 进行准备工作, 获取三级分类
```txt
文件路径: pin_duoduo/pin_duoduo/spiders/readyWork.py
执行过程: 通过运行 scrapy 爬虫 readyWork 获取二级分类的首页来获取三级分类 => 生成 work.json 文件
执行结果: 三级分类信息保存完成
```
#### 步骤三: 获取列表数据(只进行到这一步, 没有进详情页, 基本数据在列表页即可获取完成)
```txt
文件路径: pin_duoduo/pin_duoduo/spiders/pdd.py
执行过程: 通过运行 scrapy 爬虫 pdd 循环获取列表数据(测试只获取 5 页数据) => 生成 data.json 文件
执行结果: 总体流程完成,数据获取成功
```
## 说明
```python
"""
pdd_sanic 是使用 sanic 简单写的一个 web 服务, 通过 post api 来获取数据(没有使用)
使用方式: 首先运行 run.py 文件, 然后运行 _test.py 即可看到效果
"""
"""
pdd_search.py 是搜索接口数据获取的方式, 可以用来帮助改写成按关键字搜索的爬虫
"""
"""
randomproxy.py 是自定义的 scrapy 中间件, 实现代理更换 | user-agent 更换 | 请求出错时更换代理并重爬等功能,
可以直接将这个中间件应用到其它 scrapy 爬虫项目中
"""
"""
pipelines.py 中直接使用 scrapy 提供的 exporters.JsonItemExporter 进行数据存储,
并且在存储列表数据时直接将 json 数据保存, 并没有定义 item
"""
```
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。
资源推荐
资源详情
资源评论





























收起资源包目录
























































共 45 条
- 1

JJJ69
- 粉丝: 6461
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
- 医院计算机网络信息系统安全问题策略.docx
- 人力资源——网络招聘.doc
- 电信网码号和互联网域名-IP地址资源“十二五”规划.doc
- bigant数据库说明.doc
- 互联网背景下的家园共育模式探究.docx
- 计算机辅助测评的智能分值设定研究.docx
- 基于Cuckoo-Filter布谷鸟过滤器实现的高效动态流量分析与用户安全防护系统-布谷鸟过滤器算法动态流量统计恶意请求识别频率限制与访问控制-用于Web服务器和API接口的实时C.zip
- AVR单片机通用USB接口模块设计方案资料.doc
- 电力信息通信市县一体化运维体系探讨.docx
- 用于目标检测后,进行单个物体的角度测量
- 浅析职业学校计算机教学的新思路.docx
- GIS设备现场安装与检测.ppt
- 医院网络视频监控系统应用分析-公共场所其他.docx
- 营销系统与资产系统接口讨论资产管理管理系统流程细化关键业务解决方案物流专业组.ppt
- 基于单片机的电子琴课程方案设计书1.doc
- 物联网技术与应用单选汇总.doc
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈



安全验证
文档复制为VIP权益,开通VIP直接复制

- 1
- 2
- 3
- 4
前往页