数据清洗

本文深入讲解数据清洗的概念、目的及重要性,涵盖数据清洗的基本流程,包括数据读写、探索、处理、重复值与缺失值的处理等。同时,介绍了数据清洗的常用方法和相关包库,如pandas、numpy等,帮助读者掌握数据清洗的技术细节。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

什么是数据清洗

数据清洗(Data cleaning)

对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。
数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。我们要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗。而数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。

不符合要求的数据主要是有
①不完整的数据
②错误的数据
③重复的数据

数据清洗是与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成

确定数据分析的目的
获取数据
清洗数据
探索数据
建模
成品结果交流
脏数据

残缺数据、错误数据、重复数据、不符合规则的数据…

干净的数据

可以直接带入模型的数据
在这里插入图片描述

数据清洗流程

数据读写---->数据的探索与描述---->数据简单处理---->重复值处理---->缺失值处理---->异常的处理---->文字字符串和表达式序列处理

数据清洗的常用方法

pd.read_csv(’ 文件路径’)
pd.read_excel(‘文件路径’)
df.info( )
df.describe( )
duplicated( )
drop_duplicates( )
去除数据间的空格
英文字母大小写转换
删除缺失值
均值填补法
随机深林

数据清洗相关包库

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline #jupyter notebook #cell中显示图像

导入数据集

df=pd.read_csv('文件路径',index_col=0)
df.head()

初步探索数据

#查看数据形状
df.shape
#查看数据的结构
df.info()
#快速查看数据的描述性统计信息
df.describe()

简单的数据处理

#列名
df.columns
#去掉空格
col=columns.values
col[0].strip()#去掉第一行的列空格
def.columns = [x.strip()for x in col]
#去掉所有空格
df.columns
#重复值
df.duplicated()#重复值返回true
df.[df.duplicated].sum#有多少个重复值
df.drop_duplicates(inplace=true)#在原数据删除重复值

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值