几个相关系数：Pearson、Spearman、pointbiserialr、kendalltau_pointbiserialr使用快捷方式时结果与皮尔森相同-CSDN博客

本文链接：https://blog.csdn.net/mmc2015/article/details/51942066

本文介绍了四种相关系数：Pearson相关系数适用于连续且正态分布的数据，Spearman等级相关用于非正态分布或有序数据，pointbiserialr衡量二元变量与连续变量的关系，Kendallτ适用于有序分类变量的相关分析。理解这些相关系数有助于选择合适的方法进行数据相关性研究。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

http://baike.baidu.com/link?url=rkocJKJhSEL0UO-iCqg8n76fhNKotOlC4zj3yGbPgahDRZa2AqNv_7FxUOlk0Cb8Y9wlkJAnVRzq3AsDNZfKUK

皮尔逊相关系数（Pearson correlation coefficient）

在统计学中，皮尔逊相关系数（Pearson correlation coefficient），通常用r或是ρ表示，是用来度量两个变量X和Y之间的相互关系（线性相关）的，取值范围在[-1,+1]之间。皮尔逊积矩相关系数在学术研究中被广泛应用来度量两个变量线性相关性的强弱，它是由Karl Pearson在19世纪80年代从Francis Galton介绍的想法基础发展起来的，但是发展后原想法相似但略有不同的，这种相关系数常被称为“Pearson的r”。

对于随机变量 X和 Y的相关性求解公式为：

，其中 Cov( X, Y)代表 X与 Y的协方差， Var( X)和 Var( Y)代表 X和 Y的方差。当相关性为1时， X与 Y的关系可以表示为 Y= aX+ b，其中 a>0；当相关性为-1时， X与 Y的关系可以表示为 Y= aX+ b，其中 a<0。如果 X与 Y相互独立，那么相关性为0。

http://baike.baidu.com/link?url=Kh6DLe6DJa2xDGrEJ9rllzU_ou6F6uNyOzG8Eg12zFu_eYrbyu7-GuJMPspeNNhdZoBO-YT88rJ0M7GNRWiX8a

斯皮尔曼等级相关（Spearman’s correlation coefficient for ranked data）

斯皮尔曼等级相关（Spearman’s correlation coefficient for ranked data）主要用于解决称名数据和顺序数据相关的问题。适用于两列变量，而且具有等级变量性质具有线性关系的资料。由英国心理学家、统计学家斯皮尔曼根据积差相关的概念推导而来，一些人把斯皮尔曼等级相关看做积差相关的特殊形式。

公式

n为等级个数

d为二列成对变量的等级差数

http://bbs.pinggu.org/thread-479730-1-1.html

1.连续数据，正态分布，线性关系，用pearson相关系数是最恰当，当然用spearman相关系数也可以，
就是效率没有pearson相关系数高。
2.上述任一条件不满足，就用spearman相关系数，不能用pearson相关系数。
3.两个定序测量数据之间也用spearman相关系数，不能用pearson相关系数。

用pearson处理的数据，必须满足一下条件：成对数据、连续、整体是正态分布的。

其实, Spearman 和Pearson相关系数在算法上完全相同. 只是PEARSON相关系数是用原来的数值计算积差相关系数, 而SPEARMAN是用原来数值的秩次计算积差相关系数.

http://blog.csdn.net/wsywl/article/details/5859751

$由排行差分集合d计算而得（公式一）：$

$由排行集合x、y计算而得（斯皮尔曼等级相关系数同时也被认为是经过排行的两个随即变量的皮尔逊相关系数，以下实际是计算x、y的皮尔逊相关系数）（公式二）：$

pointbiserialr：measure the relationship between a binary variable, x, and a continuous variable, y.

http://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.pointbiserialr.html#scipy.stats.pointbiserialr

kendalltau：等级相关系数，适用于两个变量均为有序分类的情况

http://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.kendalltau.html#scipy.stats.kendalltau