Python机器学习:isnull()查找缺失值

在数据预处理阶段,使用isnull()和sum()函数可以有效地找出数据集中含有缺失值的字段,并统计其数量。sum()优于count()是因为布尔类型在Python中被视为整型,True计为1,False计为0。通过这个方法,可以识别并决定是否删除全为空的字段,例如_c39。此外,还需进一步检查可能以特殊字符表示的空值,以便进行编码处理。尽管当前数据集的空值较少,但数据质量检查是确保后续分析准确性的关键步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在进行特征工程的时候,需要对字段里的缺失值进行处理,那怎么把有缺失值的字段找出来呢?isnull()函数可以返回布尔值,再配合sum()函数使用,就能把每个字段里面缺失值的数量统计出来啦!

为什么这里用sum()函数,而不是用count()呢?因为在python里面布尔类型是int的子类,是可以进行数值运算的,True表示1,False表示0。我们检验一下:

所以用sum就可以把True的1加和起来了,得到的结果是空的条数是多少。

而count会把非空的行都计1,data.count()的运行结果是非空的条数有多少。

下面对数据集进行操作:

isnull()返回布尔值:

data.isnull() 


 

 再配合sum()函数使用:

data.isnull().sum()

运行结果如下:

还可以发现_c39字段全是空的,说明是无效字段,要把它删掉。为0的表示没有空的数据。

虽然经过检验,这份数据集没什么空数据,但数据集可能是用了其他的字符来表示空,比如问号、null等。因此还需要对字段的值进一步探索,方便后续编码的操作。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值