线性回归
在多元线性回归模型中,估计回归系数使用的是OLS,并在最后讨论异方差和多重共线性对模型的影响。事实上,回归中自变量的选择大有门道,变量过多可能会导致多重共线性问题导致回归系数不显著,甚至造成OLS估计失效。
岭回归和lasso回归在OLS回归模型的损失函数上加上了不同的惩罚项,该惩罚项由回归系数的函数组成,一方面,加入的惩罚项能够识别出模型中不重要的变量,对模型起到简化作用,可以看作逐步回归法的升级版,另一方面,加入的惩罚项让模型变得可估计,即使原数据矩阵不满足列满秩。
线性回归模型
在标准线性回归中,通过最小化真实值(yiy_{i}yi)和预测值(y^i\hat{y}_{i}y^i)的平方误差来训练模型,这个平方误差值也被称为残差平方和(RSS, Residual Sum Of Squares):
RSS=∑i=1n(yi−y^i)2 R S S=\sum_{i=1}^{n}\left(y_{i}-\hat{y}_{i}\right)^{2} RSS=i=1∑n(yi−y^i)2
最小二乘法即最小残差平方和,为:
Jβ(β)=argminβ∑i=1p(yi−xiβi−β0)2 J_{\beta}(\beta)=\underset{\beta}{\arg \min } \sum_{i=1}^{p}\left(y_{i}-x_{i} \beta_{i}-\beta_{0}\right)^{2} Jβ(β)=βargmini=1∑p(yi−xiβi−β0)2
将其化为矩阵形式:
Jβ(β)=argminβ(Y−Xβ)T(Y−Xβ) J_{\beta}(\beta)=\underset{\beta}{\arg \min }(Y-X \beta)^{T}(Y-X \beta) Jβ(β)=βargmin(Y−