Python pandas使用小技巧(二)

大型数据集如何先随机读取1%

# 使用skiprows参数,x > 0确保首行读入,np.random.rand() > 0.01
import numpy as np
import pandas as pd

# 假设读取的bigdata.csv文件有100G
df = pd.read_csv('bigdata.csv',skiprows=lambda x: sx>0 and np.random.rand()>0.01)
# 查看
df.shape()

如何通过标准差找出异常值

df = pd.DataFrame({
   
   'a':[1,3,np.nan],'b':[4,np.nan,np.nan]})

在这里插入图片描述

# 异常值设定为平均值上下1.96个标准差区间以外的值
mean = df['a'].mean()
std = df['a'].std()
toprange = mean + std * 1.96
botrange = mean + std * 1.96
# 过滤区间外的值
cdf = df
cdf = cdf.drop(cdf[cdf['a'] > toprange].index)
cdf = cdf.drop(cdf[cdf['a'] < botrange].index)
cdf

在这里插入图片描述

如何修

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值