5.1 合并数据
5.1.1 堆叠合并数据
1.横向堆叠:concat函数,axis=1
2.纵向堆叠:concat函数,axis=0 或 append函数
5.1.2 主键合并数据:merge函数 和 join方法
5.1.3 重叠合并数据:combine_first方法
5.1.4 任务实现
5.2 清洗数据
5.2.1 检测与处理重复值
1.记录重复:list、set、drop_duplicates
2.特征重复
(1)求相似度矩阵:corr,方法:pearson(默认),kendall,spearman
(2)先使用DataFrame.equals方法,再通过遍历的方式筛选出完全重复的特诊并删掉
5.2.2 检测与处理缺失值
- 检测:isnull 和 notnull
- 处理:删除法dropna,替换法fillna,插值法interpolate
5.2.3 检测与处理异常值:3sigma原则、箱线图分析
5.2.4 任务实现
5.3 标准化数据
5.3.1 离差标准化数据
最简单,标准化后的数据限定在[0,1]区间内,受数据分布影响较大
X∗=(X−min)/(max−min)X^* = (X-min)/(max-min)X∗=(X−min)/(max−min)
5.3.2 标准差标准化数据
应用最广泛,受数据分布影响较小,标准化后的数据均值为0,标准差为1
X∗=(X−X‾)/σX^*=(X-\overline{X})/\sigmaX∗=(X−X)/σ
5.3.3 小数定标标准化数据
适用程度适中,受数据分布影响不大
X∗=X/10kX^*=X/10^kX∗=X/10k
5.3.4
5.4 转换数据
5.4.1 哑变量处理类别型数据:get_dummies
5.4.2 离散化连续型数据
- 等宽法:cut函数
- 等频法:自定义函数 + cut函数
- 聚类分析法:K-means