第一课：静态网页爬取

——米

于 2025-07-16 14:41:01 发布

阅读量222

点赞数 9

CC 4.0 BY-SA版权

文章标签：笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mez666/article/details/149397268

今天第一课学习的内容是爬虫应用的开发，简单了解了网络爬虫的概念，分类等，还有网页的相关概念（HTTP）。

今天所学习的主要内容是静态网页爬取，直接展示代码

这段代码的主要功能是：
1. 定义一个可以获取网页HTML文本的函数
2. 处理基本的请求异常
3. 自动检测和设置正确的编码
4. 提供一个直接运行时的测试示例

1. 导入模块
import requests
导入Python的requests库，这是一个用于发送HTTP请求的流行第三方库

2. 函数定义
def getHTMLText(url): ! usage
定义了一个名为getHTMLText的函数，接收一个URL参数

3. try-except块
try:
except:
return"产生异常"
尝试执行请求操作，如果出现任何异常，返回"产生异常"字符串

4. 发送请求
r = requests.get(url,timeout=50)

使用requests.get()方法发送GET请求到指定的URL
设置超时时间为50秒

5. 状态码检查

r.raise_for_status()

如果响应状态码表示错误，会抛出HTTPError异常

6. 编码处理

r.encoding = r.apparent_encoding
使用apparent_encoding自动检测响应内容的编码将响应编码设置为检测到的编码，确保`.text`能正确解码内容

7. 返回内容

return r.text
返回解码后的网页文本内容

8. 主程序
if __name__ == "__main__":

url = "http://val.gq.com"

print(getHTMLText(url))
当脚本直接运行时（而非被导入为模块时）执行的代码定义测试URL并调用getHTMLText函数，打印结果

我代码中设置的网址是http://val.qq.com，由此程序可直接获取该网页源代码，将获取的代码粘贴复制到一个新建文本，然后更改文档名html，之后我们可以点击此快捷方式直接进入该网页变成瓦学弟。

博客等级

码龄2年

1
原创

9
点赞

0
收藏

3
粉丝

关注

私信

热门文章

第一课：静态网页爬取 222

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。