概率视角下的线性回归笔记

1 概率视角下的线性回归

1.1 线性回归理论模型

  任意给定一个随机样本 ( y i , x i 1 , x i 2 ⋯ x i p ) , i = 1 , 2 ⋯   , N (y_i,x_{i1},x_{i2}\cdots x_{ip}),i=1,2\cdots,N (yi,xi1,xi2xip),i=1,2,N i i i 表示第 i i i 个样本, p p p 表示特征个数。 一个线性回归模型假设 回归子 y i y_{i} yi回归量 x i 1 , x i 2 ⋯ x i p x_{i1},x_{i2}\cdots x_{ip} xi1,xi2xip 之间的关系是,除了 x x x 的影响以外,还有其他的变量存在。我们加入一个误差项 ε i \varepsilon _{i} εi(也是一个随机变量)来捕获除了 x i 1 , x i 2 ⋯ x i p x_{i1},x_{i2}\cdots x_{ip} xi1,xi2xip 之外任何对 y i y_{i} yi 的影响。所以一个多变量线性回归模型表示为以下的形式: y i = θ 0 + θ 1 x i 1 + θ 2 x i 2 + ⋯ + θ p x i p + ε i , i = 1 , 2 ⋯   , N y_{i}=\theta_{0}+\theta_{1}x_{i1}+\theta_{2}x_{i2}+\cdots+\theta_{p}x_{ip}+\varepsilon _{i},\qquad i=1,2\cdots,N yi=θ0+θ1xi1+θ2xi2++θpxip+εi,i=1,2,N 其他的模型可能被认定成非线性模型。一个线性回归模型不需要是关于自变量 x x x 的线性函数。在这里线性体现为 y i y_{i} yi 的条件均值关于参数 θ \theta θ 是线性的。例如:模型 y i = θ 1 x i + θ 2 x i 2 + ε i y_{i}=\theta_1x_i+\theta_2x_i^2+\varepsilon _{i} yi=θ1xi+θ2xi2+εi θ 1 \theta _{1} θ1 θ 2 \theta _{2} θ2 里是线性的,但在 x i 2 x_{i}^{2} xi2 里是非线性的,它是 x i x_{i} xi 的非线性函数,是 θ i \theta_{i} θi 的线性函数,该式又叫多项式线性回归。

  广义线性模型 在当误差分布函数 ε \varepsilon ε 不是正态分布时。比如指数分布,伽玛分布,逆高斯分布,泊松分布,二项式分布等。

【注】为什么线性回归模型的误差项 ε i \varepsilon_{i} εi 服从高斯分布。这是基于一种古典假设:

  • 样本是在总体之中随机抽取出来的;
  • 因变量 Y Y Y 在实直线上是连续的;
  • 残差项是独立且相同分布的
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值