spark中递归join一系列dataframe

最新推荐文章于 2025-04-28 22:28:35 发布

Lestat.Z.

最新推荐文章于 2025-04-28 22:28:35 发布

阅读量1.1k

点赞数

CC 4.0 BY-SA版权

分类专栏： Spark Spark学习随笔文章标签： spark

本文链接：https://blog.csdn.net/yolohohohoho/article/details/106254923

Spark学习随笔同时被 2 个专栏收录

73 篇文章

订阅专栏

Spark

58 篇文章

订阅专栏

本文介绍如何在Apache Spark中使用递归方法JOIN多个DataFrame。通过示例代码，展示了如何处理一系列DataFrame的JOIN操作。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

代码如下：

def join_dfs(df_list,key=['id']):
	if len(df_list) == 1:
		retirm df_list[0]
	def join_df(df1,df2,key=['id']):
		return df1.join(df2, key)
	return reduce(join_df, df_list)

def join_df_recursive(df_list, key=['id']):
	len_df = len(df_list)
	if len_df == 0:
		return df_list
	if len_df == 1:
		return df_list[0]
	else:
		chunk_size = min(int(len_df)/2), 8) if len_df >4 else 2
		chunk_number = int(len(df_list)/chunk_size)
		chunks = np.array_split(df_list, chunk_number)
		para = min(8, chunk_number)
		pool = ThreadPool(int(para))
		df_list = pool.map(lambda df_list : join_dfs(df_list, key), chunks)
		pool.close()
		pool.join()
		return join_df_recursive(df_list, key)