概率视角下的线性回归
1 概率视角下的线性回归
1.1 线性回归理论模型
任意给定一个随机样本 ( y i , x i 1 , x i 2 ⋯ x i p ) , i = 1 , 2 ⋯ , N (y_i,x_{i1},x_{i2}\cdots x_{ip}),i=1,2\cdots,N (yi,xi1,xi2⋯xip),i=1,2⋯,N, i i i 表示第 i i i 个样本, p p p 表示特征个数。 一个线性回归模型假设 回归子 y i y_{i} yi 和 回归量 x i 1 , x i 2 ⋯ x i p x_{i1},x_{i2}\cdots x_{ip} xi1,xi2⋯xip 之间的关系是,除了 x x x 的影响以外,还有其他的变量存在。我们加入一个误差项 ε i \varepsilon _{i} εi(也是一个随机变量)来捕获除了 x i 1 , x i 2 ⋯ x i p x_{i1},x_{i2}\cdots x_{ip} xi1,xi2⋯xip 之外任何对 y i y_{i} yi 的影响。所以一个多变量线性回归模型表示为以下的形式: y i = θ 0 + θ 1 x i 1 + θ 2 x i 2 + ⋯ + θ p x i p + ε i , i = 1 , 2 ⋯ , N y_{i}=\theta_{0}+\theta_{1}x_{i1}+\theta_{2}x_{i2}+\cdots+\theta_{p}x_{ip}+\varepsilon _{i},\qquad i=1,2\cdots,N yi=θ0+θ1xi1+θ2xi2+⋯+θpxip+εi,i=1,2⋯,N 其他的模型可能被认定成非线性模型。一个线性回归模型不需要是关于自变量 x x x 的线性函数。在这里线性体现为 y i y_{i} yi 的条件均值关于参数 θ \theta θ 是线性的。例如:模型 y i = θ 1 x i + θ 2 x i 2 + ε i y_{i}=\theta_1x_i+\theta_2x_i^2+\varepsilon _{i} yi=θ1xi+θ2xi2+εi 在 θ 1 \theta _{1} θ1 和 θ 2 \theta _{2} θ2 里是线性的,但在 x i 2 x_{i}^{2} xi2 里是非线性的,它是 x i x_{i} xi 的非线性函数,是 θ i \theta_{i} θi 的线性函数,该式又叫多项式线性回归。
广义线性模型 在当误差分布函数 ε \varepsilon ε 不是正态分布时。比如指数分布,伽玛分布,逆高斯分布,泊松分布,二项式分布等。
【注】为什么线性回归模型的误差项 ε i \varepsilon_{i} εi 服从高斯分布。这是基于一种古典假设:
- 样本是在总体之中随机抽取出来的;
- 因变量 Y Y Y 在实直线上是连续的;
- 残差项是独立且相同分布的