《python数据分析与应用》第五章:使用pandas进行数据预处理

本文详细介绍数据处理的全流程,包括数据合并、清洗、标准化及转换。覆盖concat、merge、drop_duplicates、fillna、标准化方法、get_dummies及数据离散化等关键操作,助力提升数据预处理效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

5.1 合并数据

5.1.1 堆叠合并数据

1.横向堆叠:concat函数,axis=1

2.纵向堆叠:concat函数,axis=0 或 append函数

5.1.2 主键合并数据:merge函数 和 join方法

5.1.3 重叠合并数据:combine_first方法

5.1.4 任务实现

5.2 清洗数据

5.2.1 检测与处理重复值

1.记录重复:list、set、drop_duplicates

2.特征重复

(1)求相似度矩阵:corr,方法:pearson(默认),kendall,spearman
(2)先使用DataFrame.equals方法,再通过遍历的方式筛选出完全重复的特诊并删掉

5.2.2 检测与处理缺失值

  1. 检测:isnull 和 notnull
  2. 处理:删除法dropna,替换法fillna,插值法interpolate

5.2.3 检测与处理异常值:3sigma原则、箱线图分析

5.2.4 任务实现

5.3 标准化数据

5.3.1 离差标准化数据

最简单,标准化后的数据限定在[0,1]区间内,受数据分布影响较大
X∗=(X−min)/(max−min)X^* = (X-min)/(max-min)X=(Xmin)/(maxmin)

5.3.2 标准差标准化数据

应用最广泛,受数据分布影响较小,标准化后的数据均值为0,标准差为1
X∗=(X−X‾)/σX^*=(X-\overline{X})/\sigmaX=(XX)/σ

5.3.3 小数定标标准化数据

适用程度适中,受数据分布影响不大
X∗=X/10kX^*=X/10^kX=X/10k

5.3.4

5.4 转换数据

5.4.1 哑变量处理类别型数据:get_dummies

5.4.2 离散化连续型数据

  1. 等宽法:cut函数
  2. 等频法:自定义函数 + cut函数
  3. 聚类分析法:K-means

5.4.3 任务实现

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值