浅析 K-L 变换
前言
K-L 转换(Karhunen-Loève Transform)是建立在统计特性基础上的一种转换,它是均方差(MSE, Mean Square Error)意义下的最佳转换,因此在资料压缩技术中占有重要的地位。
K-L 变换的本质就是一个线性变换
y=UTx\mathbf{y}=\mathbf{U}^T\mathbf{x}y=UTx
K-L 变换的目的: 对输入的向量 x,做一个正交变换,使得输出的向量得以去除数据的相关性
原理简述
设x={x1,x2,⋯ ,xn}\mathbf{x} = \{x_1,x_2,\cdots,x_n\}x={x1,x2,⋯,xn}为nnn维随机向量
为了找到 K-L 变换矩阵UUU,令
y=UTx\mathbf{y}=\mathbf{U}^T\mathbf{x}y=UTx
我们希望新向量y\mathbf{y}y的各个分量是独立的,因此有
E(yiyj)=0,i≠jE(y_iy_j)=0 ,\quad i \neq jE(yiyj)=0,i=j
可以计算yyy的相关系数矩阵RyR_yRy
Ry=E(yyT)=E(UTxxTU)=E(UTRxUT)\begin{aligned}R_y=E(\mathbf{y}\mathbf{y}^T)&=E(\mathbf{U}^T\mathbf{x}\mathbf{x}^T\mathbf{U})\\ &=E(\mathbf{U}^TR_x\mathbf{U}^T)\end{aligned}Ry=E(yyT)=E(UTxxTU)=E(UTRxUT)
显然Rx=E(xxT)R_x=E(\mathbf{x}\mathbf{x}^T)Rx=E(xxT)是对称矩阵,因此它的特征向量是相互正交的,若将UUU的列向量置为RxR_xRx的特征向量,此时RyR_yRy可以转换成对角矩阵。
Ry=E(yyT)=E(UTRxUT)=ΛR_y=E(\mathbf{y}\mathbf{y}^T)=E(\mathbf{U}^TR_x\mathbf{U}^T)=\LambdaRy=E(yyT)=E(UTRxUT)=Λ
将相关函数矩阵对角化,即通过 K-L 变换消除原有向量x\mathbf{x}x的各分量间的相关性,从而有可能去掉那些带有较少信息的分量以达到降低特征维数的目的。
Ry=Λ=[λ1⋯0⋮⋱⋮0⋯λn]R_y=\Lambda=\begin{bmatrix}\lambda_1 & \cdots & 0 \\ \vdots & \ddots & \vdots \\ 0 & \cdots & \lambda_n \end{bmatrix}Ry=Λ=⎣⎢⎡λ1⋮0⋯⋱⋯0⋮λn⎦⎥⎤
{% note info no-icon %}
K-L 变换的产生矩阵由数据的二阶统计量决定,即 K-L 坐标系的基向量为某种基于数据 xxx 的二阶统计量的产生矩阵的特征向量
K-L 变换的产生矩阵可以有多种选择:
- x\mathbf{x}x的相关函数矩阵: R=E(xxT)R=E(\mathbf{x}\mathbf{x}^T)R=E(xxT)
- x\mathbf{x}x的协方差矩阵: C=E((x−μ)(x−μ)T)C=E((\mathbf{x}-\mu)(\mathbf{x}-\mu)^T)C=E((x−μ)(x−μ)T)
- 样本总类内离散度矩阵: Sw=∑PiΣiS_w=\sum P_i\Sigma_iSw=∑PiΣi
{% endnote %}
离散 K-L 变换实现
设x={x1,x2,⋯ ,xn}\mathbf{x} = \{x_1,x_2,\cdots,x_n\}x={x1,x2,⋯,xn}为nnn维随机向量,Ω\OmegaΩ是来自MMM个模式类的样本集,总样本数为 NNN。
利用 K-L 变换将x\mathbf{x}x变成ddd维。
step 1. 计算样本集Ω\OmegaΩ的相关系数矩阵RRR;
R=E(xxT)≈1N∑i=1NxixiTR=E(\mathbf{x}\mathbf{x}^T) \approx \frac{1}{N}\sum_{i=1}^N\mathbf{x}_i\mathbf{x}_i^TR=E(xxT)≈N1i=1∑NxixiT
step 2. 计算RRR的特征值λi(i=1,2,⋯ ,n)\lambda_i(i=1,2,\cdots,n)λi(i=1,2,⋯,n),选择前ddd个较大值;
step 3. 计算ddd个特征值对应的特征向量ui(i=1,2,⋯ ,n)u_i(i=1,2,\cdots,n)ui(i=1,2,⋯,n),并归一化;
U=[u1,u2,⋯ ,ud]U = [u_1,u_2,\cdots,u_d]U=[u1,u2,⋯,ud]
step 4. 对Ω\OmegaΩ中的每个向量进行 K-L 变换;
y=UTx\mathbf{y} = U^T\mathbf{x}y=UTx
简单示例
{% note modern %}
两个模式类的样本分别为
w1:X1=[2,2]T,X2=[2,3]T,X3=[3,3]Tw_1: \mathbf{X}_1=[2,2]^T,\quad \mathbf{X}_2=[2,3]^T,\quad \mathbf{X}_3=[3,3]^Tw1:X1=[2,2]T,X2=[2,3]T,X3=[3,3]T
w2:X4=[−2,−2]T,X5=[−2,−3]T,X6=[−3,−3]Tw_2: \mathbf{X}_4=[-2,-2]^T,\quad \mathbf{X}_5=[-2,-3]^T,\quad \mathbf{X}_6=[-3,-3]^Tw2:X4=[−2,−2]T,X5=[−2,−3]T,X6=[−3,−3]T
利用自相关矩阵RRR作 K-L 变换,把原样本集压缩成一维。
{% endnote %}
解: 第一步: 计算样本集的自相关矩阵RRR。
R=E(XXT)=16∑i=16XiXiT=[5.76.36.37.3]R = E(\mathbf{X}\mathbf{X}^T) = \frac{1}{6}\sum_{i=1}^6 \mathbf{X}_i\mathbf{X}_i^T = \begin{bmatrix}5.7 & 6.3 \\ 6.3 & 7.3\end{bmatrix}R=E(XXT)=61i=1∑6XiXiT=[5.76.36.37.3]
第二步: 计算RRR的特征值λ\lambdaλ,选择较大值。由∣λE−R∣=0\vert \lambda E-R\vert=0∣λE−R∣=0得
λ1=12.85,λ2=0.15\lambda_1=12.85, \quad \lambda_2=0.15λ1=12.85,λ2=0.15
第三步: 根据Ru1=λ1u1R\mathbf{u}_1=\lambda_1\mathbf{u}_1Ru1=λ1u1计算λ1\lambda_1λ1对应的特征向量u1\mathbf{u}_1u1,并归一化
u1=12.3[1,1.14]T=[0.66,0.75]T\mathbf{u}_1=\frac{1}{\sqrt{2.3}}[1,1.14]^T=[0.66,0.75]^Tu1=2.31[1,1.14]T=[0.66,0.75]T
变换矩阵为
U=[u1]=[0.660.75]U=[\mathbf{u}_1]=\begin{bmatrix}0.66\\0.75\end{bmatrix}U=[u1]=[0.660.75]
第四步: 利用UUU对样本集中的每个样本进行 K-L 变换
X1∗=UTX1=[0.660.75][22]=2.82X_1^*=U^TX_1=\begin{bmatrix}0.66 & 0.75\end{bmatrix}\begin{bmatrix}2\\2\end{bmatrix}=2.82X1∗=UTX1=[0.660.75][22]=2.82
变换结果为:
w1:X1∗=2.82,X2∗=3.57,X3∗=4.23w_1: \mathbf{X}_1^*=2.82,\quad \mathbf{X}_2^*=3.57,\quad \mathbf{X}_3^*=4.23w1:X1∗=2.82,X2∗=3.57,X3∗=4.23
w2:X4∗=−2.82,X5∗=−3.57,X6∗=−4.23w_2: \mathbf{X}_4^*=-2.82,\quad \mathbf{X}_5^*=-3.57,\quad \mathbf{X}_6^*=-4.23w2:X4∗=−2.82,X5∗=−3.57,X6∗=−4.23