数据清洗

最新推荐文章于 2024-09-18 17:17:40 发布

空格为什么不行

最新推荐文章于 2024-09-18 17:17:40 发布

阅读量869

点赞数

CC 4.0 BY-SA版权

分类专栏：笔记文章标签：大数据

本文链接：https://blog.csdn.net/m0_46338330/article/details/106610077

笔记专栏收录该内容

31 篇文章

订阅专栏

本文深入讲解数据清洗的概念、目的及重要性，涵盖数据清洗的基本流程，包括数据读写、探索、处理、重复值与缺失值的处理等。同时，介绍了数据清洗的常用方法和相关包库，如pandas、numpy等，帮助读者掌握数据清洗的技术细节。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

什么是数据清洗

数据清洗(Data cleaning)

对数据进行重新审查和校验的过程，目的在于删除重复信息、纠正存在的错误，并提供数据一致性。
数据清洗从名字上也看的出就是把“脏”的“洗掉”，指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合，这些数据从多个业务系统中抽取而来而且包含历史数据，这样就避免不了有的数据是错误数据、有的数据相互之间有冲突，这些错误的或有冲突的数据显然是我们不想要的，称为“脏数据”。我们要按照一定的规则把“脏数据”“洗掉”，这就是数据清洗。而数据清洗的任务是过滤那些不符合要求的数据，将过滤的结果交给业务主管部门，确认是否过滤掉还是由业务单位修正之后再进行抽取。

不符合要求的数据主要是有
①不完整的数据
②错误的数据
③重复的数据

数据清洗是与问卷审核不同，录入后的数据清理一般是由计算机而不是人工完成

确定数据分析的目的
获取数据
清洗数据
探索数据
建模
成品结果交流

脏数据

残缺数据、错误数据、重复数据、不符合规则的数据…

干净的数据

可以直接带入模型的数据
在这里插入图片描述

数据清洗流程

数据读写---->数据的探索与描述---->数据简单处理---->重复值处理---->缺失值处理---->异常的处理---->文字字符串和表达式序列处理

数据清洗的常用方法

pd.read_csv(’ 文件路径’)
pd.read_excel(‘文件路径’)
df.info( )
df.describe( )
duplicated( )
drop_duplicates( )
去除数据间的空格
英文字母大小写转换
删除缺失值
均值填补法
随机深林

数据清洗相关包库

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline #jupyter notebook #cell中显示图像

导入数据集

df=pd.read_csv('文件路径'，index_col=0)
df.head()

初步探索数据

#查看数据形状
df.shape
#查看数据的结构
df.info()
#快速查看数据的描述性统计信息
df.describe()

简单的数据处理

#列名
df.columns
#去掉空格
col=columns.values
col[0].strip()#去掉第一行的列空格
def.columns = [x.strip()for x in col]
#去掉所有空格
df.columns
#重复值
df.duplicated()#重复值返回true
df.[df.duplicated].sum#有多少个重复值
df.drop_duplicates(inplace=true)#在原数据删除重复值

在这里插入图片描述