从高斯噪声的角度分析MAE和MSE

1. MAE与MSE的本质区别

MAE(Mean Absolute Error)和MSE(Mean Squared Error)是两种常用的损失函数,它们的数学形式决定了对误差的不同敏感程度:

  • MAE MAE = 1 n ∑ i = 1 n ∣ y i − y ^ i ∣ \text{MAE} = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i| MAE=n1i=1nyiy^i
  • MSE MSE = 1 n ∑ i = 1 n ( y i − y ^ i ) 2 \text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 MSE=n1i=1n(yiy^i)2

从几何角度看,MSE等价于欧氏距离的平方,而MAE等价于曼哈顿距离。这导致MSE对离群点更加敏感,而MAE更具鲁棒性。

2. 高斯噪声下的统计特性

在噪声服从高斯分布 ϵ ∼ N ( 0 , σ 2 ) \epsilon \sim \mathcal{N}(0, \sigma^2) ϵN(0,σ2) 的假设下:

  1. MSE是最优损失函数
    MSE对应于高斯噪声下的最大似然估计(MLE)。此时,最小化MSE等价于最大化对数似然函数:
    arg ⁡ min ⁡ θ ∑ i = 1 n ( y i − f ( x i ; θ ) ) 2 ⇔ arg ⁡ max ⁡ θ ∏ i = 1 n 1 2 π σ 2 exp ⁡ ( − ( y i − f ( x i ; θ ) ) 2 2 σ 2 ) \arg\min_{\theta} \sum_{i=1}^{n} (y_i - f(x_i; \theta))^2 \quad \Leftrightarrow \quad \arg\max_{\theta} \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(y_i - f(x_i; \theta))^2}{2\sigma^2}\right) argθmini=1n(yif(xi;θ))2argθmaxi=1n2πσ2 1exp(2σ2(yif(xi;θ))2)
    高斯分布的二次指数形式直接对应平方误差。

  2. MAE的统计假设
    MAE对应于噪声服从拉普拉斯分布时的MLE。拉普拉斯分布的概率密度函数为:
    p ( ϵ ) = 1 2 b exp ⁡ ( − ∣ ϵ ∣ b ) p(\epsilon) = \frac{1}{2b} \exp\left(-\frac{|\epsilon|}{b}\right) p(ϵ)=2b1exp(bϵ)

    arg ⁡ min ⁡ θ ∑ i = 1 n ∣ y i − f ( x i ; θ ) ∣ ⇔ arg ⁡ max ⁡ θ ∏ i = 1 n 1 2 b exp ⁡ ( − ∣ y i − f ( x i ; θ ) ∣ b ) \arg\min_{\theta} \sum_{i=1}^{n} |y_i - f(x_i; \theta)| \quad \Leftrightarrow \quad \arg\max_{\theta} \prod_{i=1}^{n} \frac{1}{2b} \exp\left(-\frac{|y_i - f(x_i; \theta)|}{b}\right) argθmini=1nyif(xi;θ)argθmaxi=1n2b1exp(byif(xi;θ))
    此时,最小化MAE等价于最大化拉普拉斯分布下的对数似然。

3. MAE导致稀疏解的内在机制

MAE容易产生稀疏解的根本原因在于其梯度特性:

  1. MAE的梯度恒定
    MAE的梯度为:
    ∂ MAE ∂ θ = { + 1 , if  y i − f ( x i ; θ ) > 0 − 1 , if  y i − f ( x i ; θ ) < 0 undefined , if  y i − f ( x i ; θ ) = 0 \frac{\partial \text{MAE}}{\partial \theta} = \begin{cases} +1, & \text{if } y_i - f(x_i; \theta) > 0 \\ -1, & \text{if } y_i - f(x_i; \theta) < 0 \\ \text{undefined}, & \text{if } y_i - f(x_i; \theta) = 0 \end{cases} θMAE= +1,1,undefined,if yif(xi;θ)>0if yif(xi;θ)<0if yif(xi;θ)=0
    当参数接近零时,梯度仍保持恒定(±1),促使参数快速收敛到零。

  2. MSE的梯度衰减
    MSE的梯度为:
    ∂ MSE ∂ θ = − 2 ( y i − f ( x i ; θ ) ) ⋅ ∂ f ( x i ; θ ) ∂ θ \frac{\partial \text{MSE}}{\partial \theta} = -2(y_i - f(x_i; \theta)) \cdot \frac{\partial f(x_i; \theta)}{\partial \theta} θMSE=2(yif(xi;θ))θf(xi;θ)
    当误差接近零时,梯度趋近于零,导致参数更新变得非常缓慢,难以彻底消除小参数。

  3. 几何解释
    从优化角度看,MAE的等高线是菱形(在二维空间中),其顶点位于坐标轴上;而MSE的等高线是圆形。当损失函数的最小值靠近坐标轴时,MAE的等高线更容易与坐标轴相交,从而使某些参数被置零。更多可见 损失函数的等高线与参数置零的关系

    在这里插入图片描述

4. 对比总结

特性MSEMAE
对离群点敏感度高(平方放大误差)低(线性处理误差)
噪声分布假设高斯分布拉普拉斯分布
梯度特性梯度随误差减小而衰减梯度恒定(除零点外)
稀疏性不易产生稀疏解易产生稀疏解
优化稳定性平滑优化,数值稳定性好非光滑优化,可能需要特殊处理

在实际应用中,如果数据包含较多离群点或需要进行特征选择,MAE是更合适的选择;如果追求预测精度且噪声近似高斯分布,MSE通常表现更好。

径向基函数(Radial Basis Function,RBF)神经网络因其优秀的非线性逼近能力结构简单性,在多维时间序列预测中有着广泛的应用。为了帮助你全面掌握RBF神经网络在时间序列预测中的应用,以及如何计算分析预测结果的评价指标,这里推荐《径向基神经网络RBF在多维时间序列预测中的应用与评价》。 参考资源链接:[径向基神经网络RBF在多维时间序列预测中的应用与评价](https://wenku.csdn.net/doc/5mecm3rrse?spm=1055.2569.3001.10343) 首先,你需要准备多维时间序列数据,并进行预处理,比如归一化、去除噪声等。随后,使用提供的MATLAB代码中的data_process.m函数进行数据清洗格式化,确保数据适合输入到RBF模型中。 在MATLAB中构建RBF模型主要涉及到RBF.m文件的使用。在这个文件中,你需要设置网络的参数,如隐藏层神经元的数量、径向基函数的类型(通常是高斯函数)以及训练算法等。通过训练RBF网络,你可以得到模型对时间序列数据的预测结果。 对于模型性能的评价,你需要编写或者使用MATLAB内置的函数来计算R²、MAEMSE、RMSEMAPE等指标。这些指标能够帮助你从不同角度评估预测模型的准确性。例如,R²值越接近1,说明模型的拟合度越好;而MAEMSE、RMSE越小,模型的预测误差就越小;MAPE值越低,预测的相对准确性越高。 通过这样的步骤,你不仅能够构建一个基于RBF神经网络的时间序列预测模型,而且还能对模型的预测性能进行全面的评价。为了进一步深入学习RBF神经网络以及时间序列预测的相关知识,建议详细阅读《径向基神经网络RBF在多维时间序列预测中的应用与评价》。这份资料将为你提供详细的理论基础实践指导,帮助你深入理解RBF神经网络在多维时间序列预测中的应用,以及如何综合评价预测结果的准确性。 参考资源链接:[径向基神经网络RBF在多维时间序列预测中的应用与评价](https://wenku.csdn.net/doc/5mecm3rrse?spm=1055.2569.3001.10343)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值