day19 学习python爬虫——requests和bs4

最新推荐文章于 2022-11-01 21:16:24 发布

长&风**

最新推荐文章于 2022-11-01 21:16:24 发布

阅读量514

点赞数

CC 4.0 BY-SA版权

文章标签： python 爬虫学习

本文链接：https://blog.csdn.net/weixin_50758400/article/details/127399261

本文介绍了Python爬虫的基础，包括requests库的使用，如发送请求、获取响应结果，以及如何处理json数据。同时，详细讲解了使用BeautifulSoup（bs4）进行网页数据解析的方法，如通过css选择器获取标签内容和属性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

day19 学习python爬虫——requests和bs4

一、requests使用详解

import  requests

1.发送请求

requests.get(请求地址) - 直接获取请求地址对应的数据（请求对象没有要求是浏览器的时候）

requests.get(请求地址，headers= 请求头) - 直接获取请求地址对应的数据，并且通过请求头完成浏览器伪装

例如：豆瓣网

headers = {
    'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36'
}

2.获取请求结果

1)直接打印响应对象，如果状态码不是200，表示请求失败

print(response)

2）获取状态码

 print(response.status_code)  # response.status_code == 200请求成功，不是则失败

3)设置编码方式（在请求结果中乱码的时候设置，设置成网页源代码中charset的值）

response.encoding='utf-8'

4)获取响应头（可以查看服务器信息和返回的数据相关信息）

print(response.headers)

5)获取请求结果（获取从服务器中返回的数据）

a.方式1. 响应对象.text - 以字符串的方式获取数据（请求对象是网页）

 print(response.text)

b.方式2：响应对象.content - 以二进制的方式获取数据（请求对象是二进制数据，比如：下载图片、音频等）

 print(respo

最低0.47元/天解锁文章

200万优质内容无限畅学