Python pandas使用小技巧(二)

最新推荐文章于 2025-03-20 16:11:34 发布

小张的Blog

最新推荐文章于 2025-03-20 16:11:34 发布

阅读量1.2k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： python数据分析 python 文章标签： python 机器学习开发语言

本文链接：https://blog.csdn.net/qq_46520947/article/details/122337290

大型数据集如何先随机读取1%

# 使用skiprows参数，x > 0确保首行读入，np.random.rand() > 0.01
import numpy as np
import pandas as pd

# 假设读取的bigdata.csv文件有100G
df = pd.read_csv('bigdata.csv',skiprows=lambda x: sx>0 and np.random.rand()>0.01)
# 查看
df.shape()

如何通过标准差找出异常值

df = pd.DataFrame({
   
   'a':[1,3,np.nan],'b':[4,np.nan,np.nan]})

在这里插入图片描述

# 异常值设定为平均值上下1.96个标准差区间以外的值
mean = df['a'].mean()
std = df['a'].std()
toprange = mean + std * 1.96
botrange = mean + std * 1.96
# 过滤区间外的值
cdf = df
cdf = cdf.drop(cdf[cdf['a'] > toprange].index)
cdf = cdf.drop(cdf[cdf['a'] < botrange].index)
cdf