德里空气质量指数多元预测的机器学习技术研究

# 德里空气质量指数多元预测的机器学习技术研究 ## 1. 引言生物多样性的维持依赖于形成大气的混合气体。这些气体百分比的上升或下降导致的任何不平衡都会引发空气污染，对气候和生物造成危害。在过去几十年里，随着快速的城市化和大规模工业化进程，空气污染迅速恶化。臭氧层作为地球生态系统存在的关键因素，正因空气污染加剧而面临消耗。由人类活动排放污染物导致的酸雨，会酸化地表水和环境。空气污染直接导致的全球变暖，已成为现代世界生存必须克服的严重威胁。世界卫生组织报告显示，空气污染每年导致约720万人死亡。许多空气污染物是人类疾病的关键因素，如细颗粒物（PM）可通过吸入进入肺部系统，引发包括心血管和呼吸系统疾病、中枢神经系统和生殖功能障碍以及癌症等多种疾病。虽然平流层中的臭氧层能保护地球免受紫外线辐射，但地面高浓度的臭氧会危害人体，导致心血管和呼吸系统疾病。此外，二氧化硫、氮氧化物和一氧化碳等都是对人体有有毒影响的空气污染物，会引发哮喘、慢性阻塞性肺疾病、肺癌和皮肤病等。考虑到空气污染对人类健康和气候的不利影响，预测空气污染物浓度具有重要意义，它能为控制和预防空气污染提供必要且准确的空气质量信息。然而，由于预测过程的不一致性、复杂性以及涉及的众多因素，空气质量预测仍是一项具有挑战性的任务。随着人工智能（AI）的快速发展，空气质量指数（AQI）预测模型也在不断改进。在AI引入预测领域之前，统计模型在AQI预测中非常流行，因其简单易实现而至今仍被广泛使用。一些先进的统计模型包括自回归积分滑动平均模型（ARIMA）、灰色模型、theta模型、指数平滑模型和线性回归模型等。与其他时间序列模型相比，统计模型提供结果更快，其简单性部分源于对输入数据的要求较低，大多数时间序列模型需要每小时的数据，而统计模型只需要每月或每年的平均数据。但这些模型将AQI数据视为线性项的组合，而AQI数据本质上是高度非线性的，因此统计模型难以达到令人满意的预测精度，这促使了机器学习（ML）模型的发展，ML模型能够处理非线性数据和大量可用的存档数据，且无需深入了解空气污染水平的动态和化学机制以及环境的其他相关变量。最简单且应用最广泛的ML模型是人工神经网络（ANN），它类似于人类大脑的结构。ANN在AQI预测领域的应用经历了多次修订和改进，产生了如反向传播神经网络（BPNN）、广义回归神经网络（GRNN）、径向基函数神经网络（RBFNN）和小波神经网络（WNN）等更好的AQI预测模型。然而，由于大气污染物水平的复杂性、众多因素的影响以及趋势的不断变化，使用简单的预测器进行准确预测非常困难。数据处理方法，如特征提取和数据分解，可以通过对数据的适当分析显著提高预测性能。主成分分析（PCA）是一种广泛使用的线性特征提取技术，用于降维，它是一种多元统计方法，通过线性变换简化不同变量，保留低阶主成分而忽略高阶成分。许多研究人员提出了结合PCA优势的混合模型。尽管已经有一些使用ML模型进行AQI多元预测的研究，但尚未有系统的研究来评估在进行装袋、提升和堆叠以及降维和特征转换时，ML模型在预测德里AQI方面的真正潜力。此外，虽然一些作者使用了随机ML模型，但只有少数作者对所得结果进行了统计测试。因此，本文对包括装袋、提升和堆叠模型在内的十七种ML模型进行了广泛研究，以评估它们在德里AQI多元预测中的真正潜力。为了得出可靠的结论，对不同的训练 - 测试比例进行了50次独立模拟，并对所得结果进行了统计分析。 ## 2. 材料与方法 ### 2.1 德里AQI多元数据为了进行德里AQI的多元预测，使用了来自Kaggle开源库的每小时AQI数据。该AQI数据集包含48,192个每小时的AQI样本，收集时间为2015年1月1日01:00至2020年1月7日00:00。每个AQI样本有12个独立变量，分别是二甲苯、甲苯、苯、臭氧（O₃）、二氧化硫（SO₂）、一氧化碳（CO）、氨（NH₃）、氮氧化物（NOₓ）、二氧化氮（NO₂）、一氧化氮（NO）、可吸入颗粒物（PM₁₀）和细颗粒物（PM₂.₅），此外还有因变量AQI值。数据集的描述性统计信息如下表所示： | Variables | Minimum | Maximum | Mean | Standard deviation | Skewness | Kurtosis | | --- | --- | --- | --- | --- | --- | --- | | PM2.5 | 0.0500 | 938.5 | 117.1477 | 95.0758 | 2.0445 | 9.4554 | | PM10 | 2.0000 | 1000.0 | 233.8625 | 139.9292 | 1.0483 | 4.3481 | | NO | 0.0500 | 497.4 | 39.0694 | 50.3321 | 2.8428 | 13.2179 | | NO2 | 2.6600 | 337.8 | 50.7355 | 28.0955 | 1.4948 | 6.7975 | | NOx | 0 | 433.8 | 58.5794 | 48.8940 | 1.7912 | 6.8358 | | NH3 | 0.5700 | 485.5 | 41.9740 | 20.3543 | 2.8901 | 21.8059 | | CO | 0 | 47.4 | 1.9759 | 2.9353 | 4.9007 | 43.4796 | | SO2 | 0.0200 | 187.1 | 16.2480 | 10.3808 | 3.0047 | 20.3471 | | O3 | 0.0600 | 497.6 | 50.7616 | 33.6792 | 2.0803 | 12.3269 | | Benzene | 0 | 93.3 | 3.5448 | 3.2251 | 3.2625 | 36.8651 | | Toluene | 0 | 162.0 | 17.1824 | 18.4629 | 2.4587 | 11.3352 | | Xylene | 0 | 158.8 | 1.0361 | 3.2472 | 16.9222 | 510.9871 | | AQI | 22.0000 | 762.0 | 259.39 | 121.3711 | 0.3645 | 2.6972 | 从表中可以看出，没有一个属性是纯粹的高斯分布（峰度 = 3）或完全对称的（偏度 = 0），因此预测德里AQI多元数据是一项具有挑战性的任务。此外，数据中包含缺失值，需要进行有效处理。 ### 2.2 方法使用ML模型进行德里AQI多元预测的方法如下： 1. **数据输入**：输入多元AQI数据，数据格式为矩阵形式，每一行包含解释变量和预测变量。 2. **处理缺失值**：由于数据是按小时收集的，使用最后第24个索引的值来填充缺失值，这样更有可能得到与缺失值相近的值。 3. **划分输入和目标**：将多元AQI数据划分为输入x（使用前k列作为解释变量）和目标y（预测变量，即AQI）。 4. **数据归一化**：为了提高ML模型的准确性，对输入和目标使用标准标量归一化方法进行归一化处理，使每个解释变量具有相同的重要性。 5. **可选的特征转换和降维**：可选地应用PCA和/或独立成分分析（ICA）来转换和减少解释变量的维度。 6. **划分训练集和测试集**：将处理后的输入和目标模式划分为训练集和测试集，考虑了不同的训练 - 测试比例，如80 - 20、85 - 15和90 - 10，并对每个比例进行重复模拟。 7. **参数估计**：使用训练集估计ML模型的参数，训练集可以选择包含验证集。 8. **预测**：使用优化后的ML模型参数，在测试集上进行归一化预测，然后将预测结果反归一化以获得真实预测值。 9. **计算预测精度**：计算预测精度指标，如均方根误差（RMSE）、平均绝对误差（MAE）和对称平均绝对百分比误差（SMAPE），以确定最适合德里AQI多元预测的ML模型。 10. **重复模拟和统计测试**：由于一些ML模型具有随机性，对每个训练 - 测试比例进行50次独立模拟，并应用统计测试以得出决定性结论。以下是该方法的算法表示： ```plaintext Input: Multivariate AQI Data d = ⎡ ⎢⎣ x1,1, x1,2, . . . x1,k, y1 ... ... ... ... ... xn,1, xn,2, . . . xn,k, yn ⎤ ⎥⎦. Output: Forecasting Accuracies such as RMSE, MAE and SMAPE. 1: Construct the input x (explanatory variables) and target y (prediction variable) from the AQI data by considering the first k-columns as input and the last column as target after imputing the missing values. In order to impute the missing values, the last 24th indexed value is used since the considered data is an hourly data. 2: Normalize the input x and target y by using the standard scalar normalization method. 3: Apply PCA and/or ICA to reduce the dimensionality of input explanatory variables. This step is optional. 4: Split the input and target patterns into a train and test set. 5: Employing the train set, determine the ML model parameters. 6: Compute the predictions on the test set by using the most parsimonious ML model obtained in Step-5. 7: De-normalize the predictions on the test set to obtain the true predictions. 8: Measure the forecasting accuracy RMSE, MAE and SMAPE of the model by using the de-n ```

最低0.47元/天解锁专栏

赠100次下载

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

德里空气质量指数多元预测的机器学习技术研究

相关推荐

专栏目录

德里空气质量指数多元预测的机器学习技术研究

相关推荐

德里空气质量数据集（12列，1462条记录）CSV

空气质量数据集，每日空气质量数据，涵盖多种关键污染物浓度、空气质量指数（AQI）、日期信息以及节假日/工作日标识，适用于数据分析、机器学习

机器学习（预测模型）：模拟的大规模5G网络性能数据集

机器学习在德里空气质量预测中的应用

水稻叶片生物胁迫分类识别及德里空气质量指数多变量预测的机器学习研究

德里空气质量管理数据分析与规划干预措施

基于机器学习的德里房价预测工具介绍

【遥感与机器学习】基于VIIRS数据的德里城市扩展分类预测：2015-2024年夜间灯光数据分析与随机森林模型训练

全球空气质量与呼吸系统健康结果数据集（适合环境建模、公共卫生分析与机器学习），包含 8 个城市空气质量与呼吸系统疾病住院数据，涵盖气象变量（温度、湿度）、人口密度与医院床位等，适用于数据分析、机器学习

陀螺仪手套的Matlab代码_Matlab code for the Gyro glove.zip

专栏目录

最新推荐

微纳流体对流与传热应用研究

凸轮与从动件机构的分析与应用

磁电六铁氧体薄膜的ATLAD沉积及其特性

自激感应发电机稳态分析与电压控制

MATLAB数值技术：拟合、微分与积分

克里金插值与图像处理：原理、方法及应用

电力系统经济调度与动态经济调度研究

可再生能源技术中的Simulink建模与应用

MATLAB目标对象管理与配置详解

TypeScript高级特性与Cypress测试实践