机器学习-零售商品销售预测（基于pyspark的7种回归预测，包含完整代码和数据）

共33个文件

csv：13个

py：13个

xml：5个

机器学习

随机森林

pyspark

5星 · 超过95%的资源 15 浏览量 2023-06-07 11:56:21 上传评论 35 收藏 2.91MB ZIP 举报

在本项目中，我们主要探讨的是利用机器学习技术来预测零售商品的销售情况。这个案例是基于Python的Spark编程环境pyspark实现的，目的是通过分析历史销售数据，构建七种不同的回归预测模型，以便更准确地预测未来的销售趋势。下面是这七个模型的详细介绍以及它们在预测中的应用： 1. **线性回归**：这是一种基础的预测模型，假设因变量与自变量之间存在线性关系。在pyspark中，我们可以使用`LinearRegression`类来构建模型，通过训练数据拟合一条最佳直线。 2. **Ridge回归**：在线性回归的基础上引入了正则化，以防止过拟合。Ridge回归通过增加L2范数惩罚项来约束模型参数的大小。在pyspark中，对应的类是`RidgeRegression`。 3. **LASSO回归**：与Ridge回归类似，LASSO回归也使用正则化，但采用L1范数，这可能导致某些不重要的特征权重变为0，从而实现特征选择。在pyspark中，对应的类是`LassoRegression`。 4. **Elastic Net回归**：结合了Ridge和LASSO回归的优点，同时考虑了L1和L2范数，适合处理多重共线性的数据。对应的pyspark类是`LinearRegression`，可以通过设置合适的参数来实现Elastic Net。 5. **决策树回归**：非线性模型，基于树状结构进行预测，通过分裂节点来分割数据，适合处理复杂的关系。在pyspark中，可以使用`DecisionTreeRegressor`类构建决策树模型。 6. **梯度提升树（Gradient Boosting Trees）**：集成学习方法，通过迭代地添加弱预测器，逐步提高预测性能。在pyspark中，对应的类是`GBTRegressor`。 7. **随机森林（Random Forest）**：也是集成学习方法，通过构建多个决策树并取平均结果来减少模型的方差。在pyspark中，使用`RandomForestRegressor`类实现随机森林模型。评估模型时，我们采用了两个关键指标：**均方差（Mean Squared Error, MSE）**和**决定系数（R-squared, R2）**。MSE衡量预测值与实际值之间的平均误差平方，数值越小表示预测精度越高；R2则表示模型解释数据变异的程度，其值在0到1之间，越接近1表示模型拟合度越好。在pyspark中，可以使用`evaluate`方法计算这些评估指标，并通过比较各个模型的MSE和R2值，选择表现最佳的模型用于实际的销售预测。这个案例提供了完整的代码和数据，对于学习机器学习在零售销售预测领域的应用非常有帮助，同时也展示了如何在大数据环境下利用pyspark进行高效的数据处理和模型训练。

资源推荐

资源详情

资源评论

收起资源包目录

零售企业商品销售预测.zip （33个子文件）

零售企业商品销售预测

代码

data_4.csv 2.05MB

0-explore_data.py 1009B

2-fix_abnormal.py 1KB

6-3-lar.py 2KB

6-7-rf.py 2KB

data_1.csv 1.55MB

5-finish_preprocess.py 1KB

data

train.csv 849KB

test.csv 515KB

train_model.csv 654KB

test_modified.csv 640KB

3-add_new.py 1KB

6-5-dt.py 2KB

test_model.csv 281KB

6-2-rr.py 2KB

6-6-gbt.py 2KB

4-one_hot.py 837B

train_modified.csv 1.02MB

.idea

代码.iml 291B

workspace.xml 8KB

misc.xml 188B

inspectionProfiles

profiles_settings.xml 174B

modules.xml 271B

.gitignore 50B

aws.xml 294B

6-4-enl.py 2KB

data_3.csv 1.95MB

data.csv 1.53MB

data_2.csv 1.58MB

6-1-lr.py 2KB

1-fix_nan.py 1KB

数据

train.csv 849KB

test.csv 515KB

import logging import sys import pandas as pd from pyspark.ml.evaluation import RegressionEvaluator from pyspark.ml.feature import VectorAssembler from pyspark.ml.regression import GBTRegressor from pyspark.ml.tuning import CrossValidator, ParamGridBuilder from pyspark.sql import SparkSession logging.basicConfig(level=logging.INFO, stream=sys.stdout) spark = SparkSession.builder.appName("big-mart-sales").getOrCreate() spark.sparkContext.setLogLevel('ERROR') train_df = spark.read.csv('train_model.csv', header=True, inferSchema=True) test_df = spark.read.csv('test_model.csv', header=True, inferSchema=True) # Get feature columns'name feature_cols = train_df.columns feature_cols.remove('Item_Outlet_Sales') # Combine all feature columns to one vectorAssembler = VectorAssembler(inputCols=feature_cols, outputCol='features') train_df = vectorAssembler.transform(train_df) train_df = train_df.select(['features', 'Item_Outlet_Sales']) test_df = vectorAssembler.transform(test_df) test_df = test_df.select(['features', 'Item_Outlet_Sales']) # Gradient-boosted Tree Regression model = GBTRegressor(featuresCol='features', labelCol='Item_Outlet_Sales', maxIter=10) evaluator = RegressionEvaluator(predictionCol="prediction", labelCol="Item_Outlet_Sales", metricName="rmse") paramGrid = ParamGridBuilder() \ .addGrid(model.maxDepth, [5, 10, 15]) \ .addGrid(model.minInstancesPerNode, [100, 150, 200]) \ .build() cv = CrossValidator(estimator=model, estimatorParamMaps=paramGrid, evaluator=evaluator, numFolds=5) cv_model = cv.fit(train_df) predictions = cv_model.transform(test_df) predictions.select("prediction", "Item_Outlet_Sales", "features").show(5) print("Root Mean Square Error (RMSE) on test data = %g" % evaluator.evaluate(predictions)) evaluator_r2 = RegressionEvaluator(predictionCol="prediction", labelCol="Item_Outlet_Sales", metricName="r2") print("R Squared (R2) on test data = %g" % evaluator_r2.evaluate(predictions)) # Don't support in TI-One # coef6 = pd.Series(cv_model.featureImportances, feature_cols).sort_values(ascending=False) # coef6.plot(kind='bar', title='Gradient-boosted Tree Feature Importances')

评论收藏

内容反馈