pyspark合并两个dataframe_手把手教你用PySpark构建机器学习模型-CSDN博客

本文介绍了如何使用PySpark进行数据预处理，包括安装PySpark、探索数据并进行统计摘要。接着，通过实例展示了如何合并两个DataFrame，并构建随机森林分类器、决策树和逻辑回归模型。最后，对这些模型进行了评估，梯度增强树模型表现出80.13%的准确率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

大数据 / 人工智能 / 区块链 / 数据库 / 热点

Harun Ur Rashid是一位自学成才的数据科学家，他展示了利用简洁的代码一步一步创建了三种算法的机器学习模型的过程，非常适用于机器学习算法爱好者。中兴数据智能为您翻译如下。

Harun Ur Rashid | 撰文

数智君 | 翻译

Spark是实现集群计算的引擎，而PySpark是一个使用Spark的Python库。PySpark是一种适用于执行大规模探索性数据分析、构建机器学习管道、为数据平台创建ETL的出色语言。如果你对Python以及诸如Pandas这样的库很熟悉，那么PySpark语言可以很好地帮助你创建更多可扩展的分析和管道。本文展示了如何使用PySpark创建一个机器学习模型。

安装PySpark

和很多Python包(例如Pandas、Numpy、scikit-learn等)一样，PySpark的安装十分简单。重要的一点是，必须确保你的电脑已经安装了Java，这样你就可以在Jupiter Notebook上运行PySpark了。

探索数据

本文中用Python创建的机器学习模型，均使用同一个数据集。这个数据集来自美国国家糖尿病与消化与肾病研究所，分类目标是预测病人是否得了糖尿病(是/否)。数据集可以从Kaggle上下载： https://www.kaggle.com/uciml/pima-indians-diabetes-database

from pyspark.sql import SparkSessionspark = SparkSession.builder.appName('ml-diabetes').getOrCreate()df = spark.read.csv('diabetes.csv', header = True, inferSchema = True)df.printSchema()

数据集由几个医学预测变量和一个目标变量(即结果)组成。预测变量包括怀孕次数、BMI(译者注：Bod