[转载]pearson相关和spearman的区别

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

[转载]pearson相关和spearman的区别
两个变量之间的⽪尔逊积矩相关系数定义为这两个变量的协⽅差与⼆者标准差积的商,即
上式定义了总体相关系数,⼀般⽤希腊字母ρ(rho)表⽰。

若⽤样本计算的协⽅差和标准差代替总体的协⽅差和标准差,则为样本相关系数,⼀般⽤r表⽰:
另外⼀个与上式等效的定义相关系数的公式是通过标准化以后变量均值的积定义的。

假设样本可以记为
,则样本Pearson相关系数为
其中别为标准化变量,样本均值和样本标准差。

1总体的Pearson相关系数是通过原点矩来定义的,所以⼆元概率分布的总体协⽅差以及变量边缘总体反差必须是有意义且是⾮零的。

⼀些概率分布例如柯西(Cauchy)分布的反差就是⽆意义的,因此在X或Y服从这种分布时,是没有意义的。

对于⼆元正态分布的,Pearson相关系数可以精确地估计两样本之间的相关关系。

对于⾮正态总体,样本相关系数依然是渐进⽆偏的,但是可能不是有效的估计。

2.受异常值影响⼤。

3.为了使⽤Pearson线性相关系数必须假设数据是成对地从正态分布中取得的,并且数据⾄少在逻辑范畴内必须是等间距的数据。

如果这两条件不符合,⼀种可能就是采⽤Spearman秩相关系数来代替Pearson线性相关系数。

1.连续数据,正态数据,线性数据⽤person相关系数是最恰当的,当然也可以⽤spearman相关系数。

效率没前者⾼
2.上述任⼀条件不满⾜,就⽤spearman相关系数,不能⽤pearson相关系数。

3.两个定序测量数据之间也⽤spearman相关系数,不能⽤pearson相关系数。

相关文档
最新文档