spark中递归join一系列dataframe

本文介绍如何在Apache Spark中使用递归方法JOIN多个DataFrame。通过示例代码,展示了如何处理一系列DataFrame的JOIN操作。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

代码如下:

def join_dfs(df_list,key=['id']):
	if len(df_list) == 1:
		retirm df_list[0]
	def join_df(df1,df2,key=['id']):
		return df1.join(df2, key)
	return reduce(join_df, df_list)

def join_df_recursive(df_list, key=['id']):
	len_df = len(df_list)
	if len_df == 0:
		return df_list
	if len_df == 1:
		return df_list[0]
	else:
		chunk_size = min(int(len_df)/2), 8) if len_df >4 else 2
		chunk_number = int(len(df_list)/chunk_size)
		chunks = np.array_split(df_list, chunk_number)
		para = min(8, chunk_number)
		pool = ThreadPool(int(para))
		df_list = pool.map(lambda df_list : join_dfs(df_list, key), chunks)
		pool.close()
		pool.join()
		return join_df_recursive(df_list, key)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值