# 免责声明
1. 本项目源代码,仅仅用于学习研究,切勿用于商业用途。
2. 一切直接或间接使用本项目源码的违法违规行为,与本项目作者无关。
# crawler_generator_01(浏览器类 爬虫生成器 01号)
## 已完成内容:
1. 以叶子节点 "碰撞" 两相似 却 不同的网页dom, 使"相同"叶子消失, 差异叶子存留.
> 比如 拿 第一页 和 第二页 "碰撞"
2. 寻找能 容纳 最多 存留叶子 的最深的 非叶子节点
> 该非叶子节点 又称为 最大分节点.
## 待完成内容:
- 已完成内容 的 第2条 有部分代码执行缓慢, 需要优化
- 分数增加依据:子节点的文本意义
## 效果测试
```bash
#python main.py https://www.lovelywholesale.com/category.html?id=159&tname=WOMEN ???
#结果不对, 结果是 /html/head, 原因尚未排查
python main.py https://www.justfashionnow.com/collections/women-s-clothing https://www.justfashionnow.com/collections/fashion-affordable-shoes-for-women-and-men
#不适用于此种情况
# 这两个页面的树在结构上没有对应, 深浅不一致(这两个页面不是同一个servLet代码生成, 而是不同的前端人员左的的不同的静态页面代码, 只是看起来比较像而已), 无最大分节点
#python main.py https://mall.jd.com/index-1000004259.html https://mall.jd.com/index-1000004065.html
#结果正确, 运行很久(候选parent太多),最大分节点正确: '/html/body/div[2]/div[8]/div/div/div[2]/div[2]/div[2]/div[1]'
python main.py http://www.liangzhishanyang.com/col.jsp?id=119 http://www.liangzhishanyang.com/col.jsp?id=118
#结果正确, 但是如果选用产品列表大的, 则运行很久. 最大分节点正确: /html/body/div[7]/div[1]
# https://wsy.com/market.htm?kid=1&cid=30: 这里面产品列表太多, 目前程序还没优化 运行很慢
python main.py "https://wsy.com/market.htm?kid=11&cid=30" "https://wsy.com/market.htm?kid=3&cid=30"
#结果正确, /html/body/div[2]/div/div[1]/div/div[1]
python main.py https://www.cn55.cn/tc/ https://www.cn55.cn/tyyp/
#结果正确, /html/body/div[5]/div[3]/div[1]/div[2]/ul
python main.py http://www.man.ef360.com/international/ http://www.man.ef360.com/mendian/
#结果正确, /html/body/div[8]/div[1]/form/div[4]/ul
python main.py https://www.tywh1688.com/sell/list/980/ https://www.tywh1688.com/sell/list/975/
```
## CHANGES
> 分数:= 节点K的深度*min(节点K的任意深孩子数,产品节点总数)
没有合适的资源?快使用搜索试试~ 我知道了~
浏览器类 爬虫生成器 01号 部分研究(注意不是直接写爬虫,而是以算法生成爬虫,部分研究)

共55个文件
py:24个
sample:13个
head:4个

1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 190 浏览量
2023-06-30
09:58:13
上传
评论
收藏 8.17MB ZIP 举报
温馨提示
# 免责声明 1. 本项目源代码,仅仅用于学习研究,切勿用于商业用途。 2. 一切直接或间接使用本项目源码的违法违规行为,与本项目作者无关。 # crawler_generator_01(浏览器类 爬虫生成器 01号) ## 已完成内容: 1. 以叶子节点 "碰撞" 两相似 却 不同的网页dom, 使"相同"叶子消失, 差异叶子存留. > 比如 拿 第一页 和 第二页 "碰撞" 2. 寻找能 容纳 最多 存留叶子 的最深的 非叶子节点 > 该非叶子节点 又称为 最大分节点. ## 待完成内容: - 已完成内容 的 第2条 有部分代码执行缓慢, 需要优化 - 分数增加依据:子节点的文本意义 ## 效果测试 ```bash #python main.py https://www.lovelywholesale.com/category.html?id=159&tname=WOMEN ??? #结果不对, 结果是 /html/head, 原因尚未排查 python main.py https://www.justfashionnow.com/collection
资源推荐
资源详情
资源评论































收起资源包目录













































































共 55 条
- 1
资源评论


ziix
- 粉丝: 3227
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
- 基于海康威视萤石云API的智能摄像头图像自动采集系统-定时抓取监控画面-存储摄像头实时图像-用于安防监控和图像分析-支持多摄像头管理-提供配置化参数设置-包含appkey和seri.zip
- 微信小程序Markdown渲染库.zip
- 微信小程序基础组件扩展.zip
- We重邮 - 微信小程序.zip
- C++多态案例三,电脑组装
- 获取文件名超时 (链接_ https___github.com_qiushi123_xiaochengxu_demos)
- 神策数据官方微信小程序埋点 SDK,是一款用于微信小程序端的数据采集埋点 SDK。使用代理的技术实现微信小程序端的全埋点
- 微信小程序服务端 SDK (for Golang).zip
- 微信小程序--校园小情书后台源码,好玩的表白墙,告白墙。.zip
- 基于Scrapy框架的多源笔趣阁小说爬虫与全文检索系统-网络小说数据抓取-小说信息存储与索引构建-小说搜索与在线阅读服务-支持中文分词与相关性排序的搜索引擎-集成Django的We.zip
- A192基于springboot+vue的协作机器人门户网站(LW文档+完整前后端代码+sql脚本+开发文档+全套软件)
- 微信开发者工具(微信小程序)linux完美支持.zip
- 一个精巧、易用的微信小程序开发辅助库.zip
- golang支付_微信公众号,微信app,微信小程序,微信企业支付,支付宝网页版,支付宝app,支付宝企业支付.zip
- 酱茄小程序开源版,基于WordPress的微信小程序,适用于博客小程序和新闻资讯小程序。.zip
- 微信小程序--滚动数字.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈



安全验证
文档复制为VIP权益,开通VIP直接复制
