什么是线性回归？-CSDN博客

吴恩达视频开局就举了一个房价预测的例子，说，如果你懂“线性回归”，你就能在关于横坐标（房屋面积）和纵坐标（房价）的众多坐标点之间拟合出一条直线。

啥是“线性回归”？毕业多年听着既熟悉又陌生。。。

好吧，既然要学就都学一下。

好的好的，直接上deep老师的优质回答：

线性回归（Linear Regression）是一种用于建模自变量（特征）与因变量（目标）之间线性关系的统计方法，广泛应用于预测和数据分析领域。以下从多个角度对其核心概念进行解析：

核心思想：通过找到一条直线（或高维空间中的超平面）来拟合数据点，使得预测值与真实值之间的误差最小化。
数学表达：
- 简单线性回归（单变量）：
  $y = w \cdot x + b$
  其中，y 是因变量，x 是自变量，w 是斜率（权重），b是截距。
- 多元线性回归（多变量）：
  $\hat{y} = w_0 + w_1 x_1 + w_2 x_2 + \cdots + w_n x_n$
  通过矩阵形式可表示为：
  $\hat{y} = X^\top \mathbf{w}$
  X 是特征矩阵，w是回归系数向量。

线性回归的有效性依赖于以下假设：

若违反这些假设，可能导致模型偏差或预测失效，例如非线性数据需采用多项式回归，多重共线性可通过岭回归（Ridge Regression）或Lasso回归处理。

目标函数：最小化均方误差（MSE）或残差平方和（RSS），即：
$\text{MSE} = \frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2$
求解方法：
- 最小二乘法：通过矩阵运算直接求解最优系数（适用于小规模数据）。
- 梯度下降法：迭代更新参数以逼近最优解（适用于大规模数据或在线学习）。

评估指标：
- R²（决定系数）：衡量模型对数据变动的解释能力，值越接近1表示拟合越好。
- 均方误差（MSE）：反映预测值与真实值的平均偏差。
诊断工具：
- 残差图：检查误差的随机性和同方差性。
- 方差膨胀因子（VIF）：检测多重共线性（VIF > 5表示严重共线性）。