集成学习案例:蒸汽量预测集
1.数据信息
数据分成训练数据(train.txt)和测试数据(test.txt),其中字段”V0”-“V37”,这38个字段是作为特征变量,”target”作为目标变量。我们需要利用训练数据训练出模型,预测测试数据的目标变量。
2.评价指标
最终的评价指标为均方误差MSE。
3 数据处理
(1)探索数据分布
对于连续分布的传感器的数据,使用 kdeplot(核密度估计图) 进行数据的初步分析,即EDA。核密度估计(kernel density estimation)是在概率论中用来估计未知的密度函数,属于非参数检验方法之一。通过核密度估计图可以比较直观的看出数据样本本身的分布特征。
(2)画出热力图(sns.heatmap),查看特征之间的相关性。然后进行进行降维操作(将相关性的绝对值小于阈值的特征进行删除)和归一化操作。
(3) 特征工程
绘图显示B