相关分析pearson_spearman_kendall的区别
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Pearson,Spearman和Kendall三种相关分析方法的异同
线性相关性(linear correlation):又简称简单相关(simple correlation),用来度量具有线性关系的两个变量之间,相关关系的密切程度及其相关方向,适用于双变量正态分布资料。线性相关系数,又称为简单相关系数,Pearson(皮尔逊)相关系数或相关系数。有时也称为积差相关系数(coefficient of product-moment correlation)。
适用条件:
1.样本容量大于等于30,这样才能保证计算的数据具有代表性,计算出的积差相关系数可以有效说明两个变量的相关关系。
2.两个变量的所属总体都呈正态分布,至少是接近正态的单峰分布。
3.两个变量都是由测量所得的连续性数据。
4.两个变量间的相关是线性相关。
5.排除共变因素的影响。
6.计算连续变量或是等间距测度的变量间的相关分析。
Spearman相关系数又称秩相关系数,是利用两变量的秩次大小作线性相关分析,对原始变量的分布不做要求,属于非参数统计方法,适用范围要广些。Spearman相关系数相当于Pearson相关系数的非参数形式,它根据数据的秩而不是数据的实际值计算,适用于有序数据和不满足正态分布假设的等间隔数据。Spearman相关系数的取值范围也在(-1,1)之间,绝对值越大相关性越强,取值符号也表示相关的方向。对于服从Pearson相关系数的数据亦可计算Spearman相关系数,但统计效能要低一些。
适用条件:
1.只有两个变量,且都为顺序变量(等级变量),或一列数据是顺序变量数据,另一列数据是连续变量数据。
2.适用于描述称名数据和顺序数据的相关情况。
3.两个连续变量观测的数据,至少有一列数据是由非测量方法粗略评估得到的。如使用作品分析法,评价者只能在一定标准基础上,依靠自己的经验进行粗略评估。
4.从Spearman等级相关的使用条件可以看出,其不受样本大小、变量分布形态,数据是否具有连续性的条件限制,所以当数据不满足Pearson积差相关的使用条件时,可以使用Spearman等级相关。但Spearman等级相关需将连续性数据转换为顺序数据,会遗漏数据原有信息,没有积差相关的准确度高。所以,当数据符合积差相关的使用条件时,不要使用等级相关进行计算。
Kendall’s tau-b等级相关系数(肯德尔):
Kendall相关系数是对两个有序变量或两个秩变量之间相关程度的度量统计量,因此也属于非参数统计范畴。与Spearman区别在于某一比较数据需要有序,在有序情况下计算速度比Spearman快。
1.用于反映分类变量相关性的指标,适用于两个分类变量均为有序分类的情况。
2.对相关的有序变量进行非参数相关检验。
3.计算Kendall秩相关系数,适合于定序变量或不满足正态分布假设的等间隔数据。
4.若不恰当用了Kendall 等级相关分析则可能得出相关系数偏小的结论。
Person相关Spearman相关Kendal’s tau-b相关