7.16 网络爬虫概述以及静态网页爬取模块requests

原创已于 2025-07-21 15:21:31 修改 · 1k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫

于 2025-07-16 14:52:01 首次发布

CLASS 1

一、网络爬虫概念描述

定义
网络爬虫是按照既定规则自动抓取万维网信息的程序或脚本，是搜索引擎、舆情监测、价格监控、推荐系统等应用的数据源头。
作用场景（跟据课堂上三个案例）
① 收集用户电影评价、做情感分析，热点发现以及电影推送。
② 实时抓取竞品价格、库存、促销信息。
③ 税务、金融等机构利用爬虫监测企业公告、股权变更。
流程
种子 URL → 下载 → 解析 → 提取新 URL → 去重 → 存储 → 调度下一轮抓取
四大分类
①通用爬虫：全网爬取，爬行对象从一些种子 URL 扩充到整个 Web，主要为门户站点搜索引擎和大型 Web 服务提供商采集数据。
②聚焦爬虫：只抓取与主题相关的页面，提高数据纯度。
③增量爬虫：仅抓取新增或更新页面。
④深层爬虫：模拟点击，大部分内容不能通过静态链接获取，隐藏在传统超链接之后的 Deep Web 数据。
抓取策略
宽度优先（BFS）：先抓完一层再下一层，适合发现“重要页面”。
深度优先（DFS）：沿一条链一直到底，返回，从最深开始
最佳优先：使用优先级队列，按 PageRank、链接深度、域名权重等打分，先抓“最重要”的页面。
Web服务器应答：内容包括：协议的版本号和应答状态码（HTTP/1.1 200 OK），错误响应为404.
状态码：1××消息，2××成功，3××重定向，4××客户端错误，5××服务端错误。
HTML DOM：树状节点结构（父、子、同胞），CSS 选择器可精准定位元素。
图的优先遍历：宽度、深度。
模拟静态网页
先建立一个文本文档，将代码运行后，出来一长串代码复制到文本保存，把txt改为html