


数智君 | 翻译
Spark是实现集群计算的引擎,而PySpark是一个使用Spark的Python库。PySpark是一种适用于执行大规模探索性数据分析、构建机器学习管道、为数据平台创建ETL的出色语言。如果你对Python以及诸如Pandas这样的库很熟悉,那么PySpark语言可以很好地帮助你创建更多可扩展的分析和管道。本文展示了如何使用PySpark创建一个机器学习模型。
安装PySpark
和很多Python包(例如Pandas、Numpy、scikit-learn等)一样,PySpark的安装十分简单。重要的一点是,必须确保你的电脑已经安装了Java,这样你就可以在Jupiter Notebook上运行PySpark了。
探索数据
本文中用Python创建的机器学习模型,均使用同一个数据集。这个数据集来自美国国家糖尿病与消化与肾病研究所,分类目标是预测病人是否得了糖尿病(是/否)。数据集可以从Kaggle上下载: https://www.kaggle.com/uciml/pima-indians-diabetes-databasefrom pyspark.sql import SparkSessionspark = SparkSession.builder.appName('ml-diabetes').getOrCreate()df = spark.read.csv('diabetes.csv', header = True, inferSchema = True)df.printSchema()
数据集由几个医学预测变量和一个目标变量(即结果)组成。预测变量包括怀孕次数、BMI(译者注:Bod