线性回归算法原理推导——最小二乘法直接计算参数矩阵

最新推荐文章于 2025-05-17 18:43:34 发布

志存高远脚踏实地

最新推荐文章于 2025-05-17 18:43:34 发布

阅读量3.3k

点赞数 4

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：机器学习线性回归最小二乘法似然函数极大似然函数

本文链接：https://blog.csdn.net/weixin_44451032/article/details/99656563

机器学习专栏收录该内容

24 篇文章

订阅专栏

本文深入探讨了线性回归算法原理，利用最小二乘法直接计算参数矩阵，详细解析了似然函数和对数似然函数的转换过程，最终导出参数θ的最优解。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

线性回归算法原理推导——最小二乘法直接计算参数矩阵

为了举例简单，假设银行的贷款系统计算一个人的额度时候，只受到年龄，每月固定收入的影响（当然实际情况要复杂的多），那么年龄和月固定收入对一个人的贷款额度的大小影响分别有多大呢？这个影响程度称之为参数。

假设年龄和每月固定收入分别为 $x_1,x_2$ ,年龄和每月固定收入对贷款额度的影响程度分别用参数 $θ1,θ2\theta_1,\theta_2$ 来表示，那么一个人的贷款额度就可表示为

$hθ(x)=θ0+θ1x1+θ2x2h_\theta(x) = \theta_0+\theta_1x_1+\theta_2x_2$

对上述公式进行整合可得到（偏置项 $θ0\theta_0$ 在矩阵中仍然存在，只是 $x_0$ 的值为1）

$hθ(x)=∑i=0i=nθixi=θTXh_\theta(x) = \sum_{i = 0}^{i = n}\theta_ix_i = \theta^TX$

这就变成了矩阵乘法

误差：误差就是真实值和预测值之间的差异用 $ε\varepsilon$ 来表示该误差

对于每个样本的真实值就等于该样本的预测值加上误差项，误差可正，可负，可零。用公式表示如下

$y(i)=θ(i)x(i)+ε(i)y^{(i)} = \theta^{(i)}x^{(i)}+\varepsilon ^{(i)}$

对于误差的几点说明

每个样本计算对应一个误差，这些误差是独立同分布的，应该服从均值为0方差为 $θ2\theta^2$ 的高斯分布
独立就是说任何一个误差与其他误差之间没有任何关系
同分布就是说他们服从同一个概率分布

由于这些误差服从高斯分布，所以每个误差的概率可由下列公式计算得到

$P(ε(i))=12πσexp⁡(−(ε(i))22σ2)P(\varepsilon ^{(i)}) = \frac{1}{\sqrt{2\pi}\sigma} \exp (-\frac{(\varepsilon ^{(i)})^2}{2\sigma^2})$

但是我们需要求的是参数 $θ\theta$ 的值，而此公式中并没有参数 $θ\theta$

根据公式 $y(i)=θ(i)x(i)+ε(i)y^{(i)} = \theta^{(i)}x^{(i)}+\varepsilon ^{(i)}$ 可得到

$ε(i)=y(i)−θ(i)x(i)\varepsilon ^{(i)} = y^{(i)} - \theta^{(i)}x^{(i)}$

代入 $P(ε(i))=12πσexp⁡(−(ε(i))22σ2)P(\varepsilon ^{(i)}) = \frac{1}{\sqrt{2\pi}\sigma} \exp (-\frac{(\varepsilon ^{(i)})^2}{2\sigma^2})$ 可以得到

$P(y(i)∣x(i);θ)=12πσexp⁡(−(y(i)−θ(i)x(i)2σ2)P(y^{(i)}|x^{(i)};\theta) = \frac{1}{\sqrt{2\pi}\sigma} \exp (-\frac{( y^{(i)} - \theta^{(i)}x^{(i)}}{2\sigma^2})$

这就引入了似然函数，似然函数就是用来求参数的函数，似然函数就是求什么样的参数能够跟已有数据组合后计算的预测值能够很好的反映真实值，最大（极大）似然函数就是使得求得的参数通过与已有数据组合得到的预测值能能更接近真实值，使得预测值是真实值或者接近真实值的概率最大化。

求参数 $θ\theta$ 的似然函数如下

$L(θ)=∏i=1i=mP(y(i)∣x(i);θ)=∏i=1i=m12πσexp⁡(−(y(i)−θ(i)x(i)2σ2)L(\theta) = \prod_{i = 1} ^{i = m}P(y^{(i)}|x^{(i)};\theta) = \prod_{i = 1} ^{i = m} \frac{1}{\sqrt{2\pi}\sigma} \exp (-\frac{( y^{(i)} - \theta^{(i)}x^{(i)}}{2\sigma^2})$

但是这样的似然函数因为是乘法在计算上是难以求值的或者说计算复杂度很大。于是引入了对数似然函数，将原来的似然函数取对数，根据对数的运算法则可以将乘法运算化简为加法运算

对数运算法则 $l n (A B) = l n (A) + l n (B)$

对原似然函数取对数

$ln(L(θ))=ln(∏i=1i=m12πσexp⁡(−(y(i)−θ(i)x(i)2σ2))=∑i=1i=mln(12πσexp⁡(−(y(i)−θ(i)x(i)2σ2))=mln(12πσ)−1σ212∑i=1i=m(y(i)−θ(T)x(i))2ln(L(\theta)) = ln(\prod_{i = 1} ^{i = m} \frac{1}{\sqrt{2\pi}\sigma} \exp (-\frac{( y^{(i)} - \theta^{(i)}x^{(i)}}{2\sigma^2})) \\ \qquad \qquad = \sum_{i = 1}^{i = m}ln(\frac{1}{\sqrt{2\pi}\sigma} \exp (-\frac{( y^{(i)} - \theta^{(i)}x^{(i)}}{2\sigma^2})) \\ \qquad \qquad= mln(\frac{1}{\sqrt{2\pi}\sigma}) - \frac{1}{\sigma^2}\frac{1}{2}\sum_{i =1}^{i = m}(y^{(i)} - \theta^{(T)}x^{(i)})^2$

现在 $mln(\frac{1}{\sqrt{2\pi}\sigma}),\quad B =\frac{1}{\sigma^2}\frac{1}{2}\sum_{i =1}^{i = m}(y^{(i)} - \theta^{(T)}x^{(i)})^2$

显然 $A$ 是一个常数， $B$ 是一个正数，我们的目标是使得对数似然函数的值最大，因为它反映了预测值能够多大程度上接近真实值或者说预测值是真实值的概率，它的值越大，预测值越接近真实值，所以要使得 $B$ 的值最小

于是得到了最小二乘法的公式:

$J(θ)=12∑i=1i=m(y(i)−θ(T)x(i))2J(\theta) =\frac{1}{2}\sum_{i =1}^{i = m}(y^{(i)} - \theta^{(T)}x^{(i)})^2$

我们的目标是求参数 $θ\theta$ 的值使得 $J(θ)J(\theta)$ 最小，根据矩阵公式 $X^2 = X^TX$ ,对 $J(θ)J(\theta)$ 展开，然后对 $θ\theta$ 求导（其中涉及到一点矩阵求导的公式），并且化简，让导函数等于0，最后得到 $θ=(XTX)−1XTy\theta = (X^TX)^{-1}X^Ty$

下面是展开过程和求导过程

评估线性拟合的效果最常用的评估项是 $R^2$
$R2=1−∑i=1i=m(yi^−yi)2∑i=1i=m(yi−yiˉ)2\begin{aligned}R^2 = 1 - \frac{\sum_{i =1}^{i = m}(\hat{y_i}{ - y_i})^2}{\sum_{i = 1}^{i = m}(y_i - \bar{y_i})^2}\end{aligned}$
$R^2$ 的值越接近1，拟合效果越好