爬虫初始教学总结

1.Requests库:

1.1 包含工具

1.1.1 status_code 状态码

  1. 以1**开头:服务器收到请求,需要请求者继续操作

  2. 以2**开头:成功访问

  3. 以3**开头:重定向,需要进一步操作

  4. 以4**开头:请求语法中有错误(客户端出错)

  5. 以5**开头:处理请求时出错(服务器端)

1.1.2 headers 头信息

response.headers:是服务器返回的 HTTP 响应头信息,它包含了服务器对请求的元数据响应。这些信息描述了响应的特性、服务器状态、内容属性等

1.1.3 encoding 指定编码

用处:如果先前在使用text报错,可使用encoding重新指定编码

常见编码 计算机只能处理数字01,如果要处理文本,就必须把文本转换为数字01二进制的格式,这种转换方式称为字符编码。常用的几种编码格式:

  1. ASCI编码:为字母编码,不兼容汉字

  2. Unicode编码:万国码,可以容纳所有文字和符号。2个字节表示汉字

  3. UTF-8编码:为了节省字节数,在万国码基础上优化的编码,兼容ASCII编码,所以最流行

  4. GB2312:我国早期自己制定的中文编码,世界范围不通用

1.1.4 content 转换为二进制数据

常用于图片处理,让爬出的数据以二进制的形式存在

1.1.5 text 以字符串输出

将爬出的信息完全转换为文本形式,在转换时候会

1.2 比较

1.2.1 response.text

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值