线性回归与投影的关系_线性回归投影理论-CSDN博客

本文链接：https://blog.csdn.net/a358463121/article/details/146320920

什么是投影?

向量上的投影

首先什么是投影，如下图
在这里插入图片描述

如果我们想将向量x投影到向量v上，那么这个投影 $x‾\displaystyle \overline{x}$ 应该还是在v这个方向上，但只是相差了一个常数倍：
$\overline{x} =c^{*} v$
而投影点的一个性质就是这个点是在v的方向上，是到x最短的距离：
$\| \overline{x} -x\| \leqslant \| cv-x\| \\ \Longrightarrow \| c^{*} v-x\| \leqslant \| cv-x\|$
因此，我们可以通过最优化这个c，来找到这个投影点：
$\begin{aligned} & \arg\min_{c}( \| \overline{x} -x\| )\\ & =\arg\min_{c}\left(\sqrt{\sum _{i}(\overline{x}_{i} -x_{i})^{2}}\right)\\ & =\arg\min_{c}\left(\sum _{i}(\overline{x}_{i} -x_{i})^{2}\right)\\ & =\arg\min_{c}\left(\sum _{i}( cv_{i} -x_{i})^{2}\right)\\ & \text{ this is quadratic in } c,\text{ so minimum lies when }\frac{d}{dc}\sum _{i}( cv_{i} -x_{i})^{2} =0\\ & \frac{d}{dc}\sum _{i}( cv_{i} -x_{i})^{2} =\sum _{i} 2v_{i}( cv_{i} -x_{i})\\ & =2\left(\sum _{i} cv_{i}^{2} -\sum _{i} v_{i} x_{i}\right)\\ & =2\left( cv^{T} v-v^{T} x\right)\\ & \text{ at minimum, }\frac{d}{dc}\sum _{i} =2\left( cv^{T} v-v^{T} x\right) =0\Rightarrow v^{T} c^{*} v-v^{T} x=0\\ & c^{*} v^{T} v=v^{T} x\\ & c^{*} =(v^{T} v)^{-1} v^{T} x\\ & \overline{x} =vc^{*} =v(v^{T} v)^{-1} v^{T} x=Px\ \mathrm{where} \ P=v(v^{T} v)^{-1} v^{T} \end{aligned}$
从上面的推导我们可以看出， $x‾\displaystyle \overline{x}$ 其实是可以通过对x作一个线性变换 $P\displaystyle P$ 得到的:
$\overline{x} =vc^{*} =v(v^{T} v)^{-1} v^{T} x=Px\ \mathrm{where} \ P=v(v^{T} v)^{-1} v^{T}$
这个P也称为投影矩阵，而且我们发现这个P跟x是无关的，也就是这个P可以对任意的x作变换从而找到对应的投影向量。

同时，这个投影矩阵还具有性质
$\begin{aligned} PP & =v(v^{T} v)^{-1} v^{T} v(v^{T} v)^{-1} v^{T}\\ & =v(v^{T} v)^{-1}\left( v^{T} v\right) (v^{T} v)^{-1} v^{T}\\ & =v(v^{T} v)^{-1} v^{T} =P \end{aligned}$
这意味着这个投影矩阵 $Pn=P\displaystyle P^{n} =P$ ，因此他的特征值必然是1或者0。直觉上，为什么会有这个性质呢？其实很简单，因为P就是将x变成v上的投影，那经过一次变换后的向量就已经在v上了，再投影一次其实还是在原地，所以他必然满足 $P2=P\displaystyle P^{2} =P$ 。

而且图1所示，向量 $x‾−x\displaystyle \overline{x} -x$ 与 $v\displaystyle v$ 是成一个垂直关系的，因此
$Px-x\bot v$
我们一般称 $x−Px=(I−P)x=r\displaystyle \mathbf{x} -P\mathbf{x} =( I-P)\mathbf{x} =r$ 为残差，因此， $I−P\displaystyle I-P$ 也被称为residual maker matrix。

从垂直这个性质，我们可以用几何的方法来推出同样的P矩阵，首先因为他们垂直，我们有
$v^{T} (Px-x)=0$
又因为， $Px=cv\displaystyle Px=cv$ ，所以
$v^{T} (cv-x)=0$
于是
$c=\left( v^{T} v\right)^{-1} v^{T} x$
因此，
$Px=v\left( v^{T} v\right)^{-1} v^{T} x$
我们同样推出了P的形式。

子空间上的投影

更一般的，如果 $v\displaystyle v$ 是一个子空间（或者平面），我们可以将问题推广到将向量 $x$ 投影到子空间 $V$ 上。设 $V$ 是一个子空间，其基向量为 ${v1,v2,…,vk}\{v_{1} ,v_{2} ,\dotsc ,v_{k} \}$ ，我们需要找到投影矩阵 $P$ ，使得 $P x$ 是 $x$ 在 $V$ 上的投影，且 $P x - x$ 与 $V$ 中的任意向量垂直。

投影 $P x$ 应满足：
$Px\in V$
即 $P x$ 可以表示为基向量的线性组合：
$Px=\sum _{i=1}^{k} c_{i} v_{i}$
根据垂直条件， $P x - x$ 应与 $V$ 中的任意向量垂直，即：
$v_{j}^{T} (Px-x)=0\ \ \forall j=1,2,\dotsc ,k$
将 $Px=∑i=1kciviPx=\sum _{i=1}^{k} c_{i} v_{i}$ 代入：
$v_{j}^{T}\left(\sum _{i=1}^{k} c_{i} v_{i} -x\right) =0$
展开后得到：
$\sum _{i=1}^{k} c_{i} (v_{j}^{T} v_{i} )-v_{j}^{T} x=0$
列出所有的j，这可以写成矩阵形式：
$A^{T} Ac=A^{T} x$
其中， $A$ 是子空间 $V$ 的基向量组成的矩阵， $A=[v1,v2,…,vk]A=[v_{1} ,v_{2} ,\dotsc ,v_{k} ]$ ， $c$ 是系数向量， $c=[c1,c2,…,ck]Tc=[c_{1} ,c_{2} ,\dotsc ,c_{k} ]^{T}$ 。

通过解上述方程，可以得到系数向量 $c$ ：
$c=(A^{T} A)^{-1} A^{T} x$
因此，投影 $P x$ 为：
$Px=Ac=A(A^{T} A)^{-1} A^{T} x$
于是，投影矩阵 $P$ 为：
$P=A(A^{T} A)^{-1} A^{T}$
显然，如果 $V$ 是单个向量 $v$ 那就会退化为之前的结果， $P=v(vTv)−1vT\displaystyle P=v\left( v^{T} v\right)^{-1} v^{T}$ ，而如果 $V$ 是正交基组成的子空间，则 $A^{T} A=I$ ，投影矩阵简化为 $P=AAT\displaystyle P=AA^{T}$ 。

Column space上的投影

对于更一般的情况，矩阵 $A\displaystyle A$ 的每一列并不一定是由基向量组成，这时候，矩阵A的每一列会张成一个column space，此时，向量x在这个column space上的投影为：
$P x = A c$
这里P是投影矩阵， $A=[v1,v2,…,vk]\displaystyle A=[v_{1} ,v_{2} ,\dotsc ,v_{k} ]$ 是任意列组成的矩阵， $c=[c1,c2,…,ck]T\displaystyle c=[c_{1} ,c_{2} ,\dotsc ,c_{k} ]^{T}$ 是一个向量， $Ac\displaystyle Ac$ 表示这些列的任意线性组合，因此 $space(A)\displaystyle Ac\in \text{Column space}( A)$ 是列空间上的元素（因为是由列元素线性组合而成），于是，根据正交性质， $Px−x\displaystyle Px-x$ 应当与 $A\displaystyle A$ 的每一列都垂直，因此
$\begin{aligned} & A^{T} (Px-x)=0\\ \Longrightarrow & A^{T} (Ac-x)=0\\ \Longrightarrow & c=\left( A^{T} A\right)^{-1} A^{T} x \end{aligned}$
于是，我们有
$Px=Ac=A\left( A^{T} A\right)^{-1} A^{T} x$
因此， $P=A(ATA)−1AT\displaystyle P=A\left( A^{T} A\right)^{-1} A^{T}$ ，还是同一个东西。

投影性质

根据投影的性质，x在A上的投影到x的距离，一定是A的列空间中所有元素中离x最近的，因此我们有
$\| Px-x\| =\| Ac^{*} -x\| \leqslant \| Ac-x\|$

线性回归与投影的联系

令 $A=[x1,...,xk]∈Rm×k\mathbf{A} =[ x_{1} ,...,x_{k}] \in \mathbb{R}^{m\times k}$ 表示自变量的设计矩阵，包含 $m$ 个样本和 $k$ 个特征，向量 $y∈Rn\mathbf{y} \in \mathbb{R}^{n}$ 表示因变量。线性回归的目标是找到系数向量 $w∈Rk\mathbf{w} \in \mathbb{R}^{k}$ ，使得预测值 $Aw\mathbf{Aw}$ 尽可能接近真实值 $y\mathbf{y}$ ：
$\min_{\mathbf{w}} \ \| \mathbf{y} -A\mathbf{w} \| ^{2} .$
看到这个式子，我们似乎想要找到一个最优的 $w∗\displaystyle \mathbf{w}^{*}$ ，使得
$\ \| \mathbf{y} -A\mathbf{w}^{*} \| ^{2} \leqslant \ \| \mathbf{y} -A\mathbf{w} \| ^{2}$
有没有发现很熟悉，从投影的角度，我们其实就是在找 $y\displaystyle \mathbf{y}$ 在 $A\displaystyle A$ 上的投影，从而
$\| \mathbf{y} -P\mathbf{y} \| ^{2} =\| \mathbf{y} -A\mathbf{w}^{*} \| ^{2} \leqslant \| \mathbf{y} -A\mathbf{w} \| ^{2} .$
这里 $Aw\displaystyle A\mathbf{w}$ 就是列空间A上的任意元素（投影必须落在这个空间上），于是，根据我们前面一节的推导，我们有
$\mathbf{w}^{*} =\left( A^{T} A\right)^{-1} A^{T}\mathbf{y}$
直觉上，如果A满秩，而且有足够多样本的话，那么A就形成了一个k维列空间，而我们目的就是要找到y在这个k维列空间上的投影，也就是找到这个空间上距离y最近的那个点，本质上就是在搜索最优的k维的w，使得残差最小。