pyspark 众数填充空值

最新推荐文章于 2025-05-11 22:07:36 发布

dj_wings空杯

最新推荐文章于 2025-05-11 22:07:36 发布

阅读量1.4k

点赞数

CC 4.0 BY-SA版权

分类专栏： pyspark

本文链接：https://blog.csdn.net/qq_39349673/article/details/107671022

pyspark 专栏收录该内容

8 篇文章

订阅专栏

本文介绍了一种使用PySpark DataFrame在Python中进行探索性数据分析的方法，详细讲解了如何计算分类列的众数并填充缺失值，适用于大规模数据集的预处理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

转自：https://medium.com/@aieeshashafique/exploratory-data-analysis-using-pyspark-dataframe-in-python-bd55c02a2852

可用

def mode_of_pyspark_columns(sql_df, cat_col_list, verbose=False):
col_with_mode=[]
for col in cat_col_list:
#Filter null 对原代码修正
df = sql_df.filter(sql_df[col].isNull()==False)
#Find unique_values_with_count
unique_classes = df.select(col).distinct().rdd.map(lambda x: x[0]).collect()
unique_values_with_count=[]
for uc in unique_classes:
unique_values_with_count.append([uc, df.filter(df[col]==uc).count()])
#sort unique values w.r.t their count values
sorted_unique_values_with_count= sorted(unique_values_with_count, key = lambda x: x[1], reverse =True)

if (verbose==True): print(col, sorted_unique_values_with_count, " and mode is ", sorted_unique_values_with_count[0][0])
col_with_mode.append([col, sorted_unique_values_with_count[0][0]])
return col_with_mode

#Fill missing values for mode
from pyspark.sql.functions import when, lit

def fill_missing_with_mode(df, cat_col_list):
col_with_mode =mode_of_pyspark_columns(df, cat_col_list)

for col, mode in col_with_mode:
df = df.withColumn(col, when(df[col].isNull()==True,
lit(mode)).otherwise(df[col]))

return df