day19 学习python爬虫——requests和bs4

本文介绍了Python爬虫的基础,包括requests库的使用,如发送请求、获取响应结果,以及如何处理json数据。同时,详细讲解了使用BeautifulSoup(bs4)进行网页数据解析的方法,如通过css选择器获取标签内容和属性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

day19 学习python爬虫——requests和bs4

一、requests使用详解
import  requests
1.发送请求

requests.get(请求地址) - 直接获取请求地址对应的数据(请求对象没有要求是浏览器的时候)

requests.get(请求地址,headers= 请求头) - 直接获取请求地址对应的数据,并且通过请求头完成浏览器伪装

例如:豆瓣网

headers = {
    'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36'
}
2.获取请求结果
1)直接打印响应对象,如果状态码不是200,表示请求失败
print(response) 
2)获取状态码
 print(response.status_code)  # response.status_code == 200请求成功,不是则失败
3)设置编码方式(在请求结果中乱码的时候设置,设置成网页源代码中charset的值)
response.encoding='utf-8'
4)获取响应头(可以查看服务器信息和返回的数据相关信息)
print(response.headers)
5)获取请求结果(获取从服务器中返回的数据)
a.方式1. 响应对象.text - 以字符串的方式获取数据(请求对象是网页)
 print(response.text)
b.方式2:响应对象.content - 以二进制的方式获取数据(请求对象是二进制数据,比如:下载图片、音频等)
 print(respo
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值