1.1总体皮尔逊(person)相关系数:
在概率论与数理统计中我们学到,若两组数据X{x1,x2…xn}与Y{y1,y2…yn}为总体数据,则总体协方差为
它表示两个变量的总体误差,若XY相对于各自均值同向变化,为正值,反之为负值。其数值与数据本身量纲有关。
则总体皮尔逊相关系数为上面的协方差除以X与Y的标准差。即:
可以看成是剔除了两个变量量纲影响,即将X和Y标准化后的协方差。
1.2 样本皮尔逊相关系数:
与上面类似,XY是两组样本数据。样本的协方差与标准差分母改成n-1即可:
通过绘制散点图,我们可以清楚的看出x与y的相关性:
注:
1.我们只能通过这种方法衡量X与Y线性相关的程度,若两组本身不是线性关系,那么结果并不具有说服力。一定要先判断两变量是否是线性关系!
2.野值对结果存在影响。
3.计算得出的相关性结果是大是小需要根据不同的背景来解释。
1.3 进行假设检验来判断其显著性:
原假设H0:相关系数r=0 ;H1:r≠0。对于这里的皮尔逊相关系数来说,满足一定条件时,我们可以认为它是服从自由度为n-2的t分布。
在后面的MATLAB代码中,方便起见,我们用到了p值判别法,计算相关系数矩阵的元素对应的p值(当p<0.01时,在99%的置信水平上拒绝H0,其他同理)
例题:
我们将数据导入spss,利用描述功能,我们可以得出一些基本信息
我们接下来看一下两两变量的线性关系,利用spss的矩阵散点图做出:
我们可以看出,两两的线性关系并不太好,但是为了演示后面的过程,我们假设这里是满足线性的。
接下来用MATLAB来进行后续的操作
[R,P] = corrcoef(PE_Test)