2 第二章:数据清洗及特征处理
我们拿到的数据通常是不干净的,所谓的不干净,就是数据中有缺失值,有一些异常点等,需要经过一定的处理才能继续做后面的分析或建模,所以拿到数据的第一步是进行数据清洗,本章我们将学习缺失值、重复值、字符串和数据转换等操作,将数据清洗成可以分析或建模的亚子。
2.1 缺失值观察与处理
我们拿到的数据经常会有很多缺失值,比如我们可以看到Cabin列存在NaN,那其他列还有没有缺失值,这些缺失值要怎么处理呢
2.1.1 任务一:缺失值观察
(1) 请查看每个特征缺失值个数
查看数据信息
df.info()
查看缺失值个数
df.isnull().sum()
(2) 请查看Age, Cabin, Embarked列的数据
df.loc[:,['Age', 'Cabin', 'Embarked']].head()
2.1.2 任务二:对缺失值进行处理
(1)处理缺失值一般有几种思路
(2) 请尝试对Age列的数据的缺失值进行处理
(3) 请尝试使用不同的方法直接对整张表的缺失值进行处理
#使用年龄均值填补缺失值
df.loc[:,"Age"].fillna(df.loc[:,"Age"].mean(), inplace = True)
df.loc[:,"Age"].isnull().sum()
#删除Cabin列
df.drop("Cabin", axis=1, inplace=True)
#删除Embarked缺失行
df.dropna(inplace