【1】引言
前序学习进程中,已经回顾了协方差、协方差与方差之间关系相关的基本概念。
对于两个随机变量
X
X
X和
Y
Y
Y,协方差为
C
o
v
(
X
,
Y
)
Cov(X,Y)
Cov(X,Y),有:
C
o
v
(
X
,
Y
)
=
E
[
(
X
−
E
(
X
)
)
(
Y
−
E
(
Y
)
)
]
Cov(X,Y)=E[(X-E(X))(Y-E(Y))]
Cov(X,Y)=E[(X−E(X))(Y−E(Y))]
单个变量的方差为
V
a
r
(
X
)
Var(X)
Var(X):
V
a
r
(
X
)
=
E
[
(
X
−
E
(
X
)
)
2
]
=
E
[
X
2
−
2
X
E
(
X
)
+
E
(
X
)
2
]
=
E
(
X
2
)
−
2
E
(
X
)
E
(
E
(
X
)
)
+
E
(
E
(
X
)
2
)
=
E
(
X
2
)
−
E
(
X
)
2
Var(X)=E[(X-E(X))^2]=E[X^2-2XE(X)+E(X)^2]=\\ E(X^2)-2E(X)E(E(X))+E(E(X)^2)=\\ E(X^2)-E(X)^2
Var(X)=E[(X−E(X))2]=E[X2−2XE(X)+E(X)2]=E(X2)−2E(X)E(E(X))+E(E(X)2)=E(X2)−E(X)2
从公式推导上看,协方差等于方差是完全可能的:当计算变量自己和自己的协方差时,协方差就是方差。
C
o
v
(
X
,
X
)
=
E
[
(
X
−
E
(
X
)
)
(
X
−
E
(
X
)
)
]
=
E
(
X
2
)
−
E
(
X
)
2
=
V
a
r
(
X
)
Cov(X,X)=E[(X-E(X))(X-E(X))]=E(X^2)-E(X)^2=Var(X)
Cov(X,X)=E[(X−E(X))(X−E(X))]=E(X2)−E(X)2=Var(X)
方差其实是协方差的一个特例,协方差计算所有变量之间的相互线性关系,但方差计算的是变量自己和自己的线性关系。
【2】协方差标准化
谦虚学习进程中,也曾经回顾变量去中心和标准化的基本概念,其实协方差的计算也很有必要进行标准化操作。
一旦变量是一些物理量,不同的量纲带来的协方差计算值完全不同,这种没有界限的取值会影响判断结果,因此对协方差进行个标准化操作就至关重要。
协方差标准化后的参数名称为“皮尔逊相关系数
ρ
X
,
Y
\rho_{X,Y}
ρX,Y”:
ρ
X
,
Y
=
C
o
v
(
X
,
Y
)
V
a
r
(
X
)
⋅
V
a
r
(
Y
)
\rho_{X,Y}=\frac{Cov(X,Y)}{\sqrt{Var(X)}\cdot \sqrt{Var(Y)}}
ρX,Y=Var(X)⋅Var(Y)Cov(X,Y)
ρ
X
,
Y
\rho_{X,Y}
ρX,Y的取值范围是[-1,1],除了量纲影响,其绝对值越接近 1,线性相关越强。
很显然,
当
ρ
X
,
Y
>
0
\rho_{X,Y}>0
ρX,Y>0,变量
X
,
Y
X,Y
X,Y同步偏离均值,为线性正相关关系;
当
ρ
X
,
Y
=
0
\rho_{X,Y}=0
ρX,Y=0,变量
X
,
Y
X,Y
X,Y中至少有一个量停驻在均值处,为线性无关关系;
当
ρ
X
,
Y
<
0
\rho_{X,Y}<0
ρX,Y<0,变量
X
,
Y
X,Y
X,Y反向偏离均值,为线性负相关关系。
【3】总结
学习了协方差标准化获得皮尔逊相关系数 ρ X , Y \rho_{X,Y} ρX,Y的基础概念。