非参数双变量相关分析方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
通讯作者:陈平雁
非参数双变量相关分析方法Spearman 和
Kendall 的Monte Carlo 模拟比较
南方医科大学公共卫生与热带医学学院生物统计学系(510515)
胡 军 张 超 陈平雁
提 要 目的 对Spear man 和K endall s tau -b 两种非参数双变量相关分析方法在偏态分布和等级变量条件下进行模拟比较。
方法 应用SAS 9 13软件编程,采用M onte Carlo 方法,设置不同偏态分布类型、样本量及总体相关系数,比较两种非参数方法的样本相关系数及相对误差的大小。
结果 Spear man 方法较之Kendall 方法,估计的相关系数与总体相关系数更为接近,且相对误差更小。
结论 在双变量为偏态分布和等级变量条件下,Spearman 法优于Kendall 方法。
关键词 非参数相关 模拟研究 Spear man 法 K endall s tau -b 法
对于双变量相关分析,无论是教科书还是权威统计软体SAS 及SPSS 等,通常介绍的方法为Pearson 积差相关系数,Spearman 和Kendall s tau -b 秩相关系数。
Pearson 相关适用于双变量正态分布的数据,
Spearman 和Kendall s 秩相关适用于等级资料、非双变量正态分布的资料以及分布不确定的数据
1-5。
一般而言,当资料服从双变量正态分布时,使用Pear -son 法是无可争议的,而且较非参数方法效率高也是无争议的。
但在偏态分布或等级变量条件下,Spear -man 法和Kendall 法两种非参方法何者为优却未见报道。
为此,本研究拟对两方法进行模拟比较,以期为资料分析时选择方法提供参考。
模拟研究方法
采用Monte Carlo 方法,利用SAS 中IML 矩阵运算模块及随机数函数从双变量偏态分布总体进行抽样。
总体相关系数 设置为0 3、0 6及0 9。
样本量n 设置为10、30、60及100。
在每个总体中按样本量的不同重复抽样2000次,而后计算并比较各种条件下样本相关系数与总体相关系数的相对误差,即
相对误差=(r - )/ 。
偏态分布双变量数据的获得可参照Fleishman 的研究结果 6 ,由标准正态分布进行转换,其公式为:
Y =a +bz +cZ 2+dZ 3
其中Y 为服从一定偏度和峰度的偏态分布随机变量,Z 为标准正态分布随机变量,a 、b 、c 、d 为参数,a =-c 。
本研究设置两种偏态分布类型: 偏度系数 1=0 75,峰度系数 2=1 2; 1=2, 2=7。
等级资料数据的生成,先由SAS 中IM L 矩阵运算模块及随机数函数从双变量标准正态分布总体进行抽样,而后将连续型计量数据划分为等级资料。
具体作法如表1。
表1 标准正态分布数据转化为等级资料的具体设置
连续性变量等级变量
X -21-2<X -12-1<X -0 53-0 5<X 040<X 0 550 5<X 161<X 27X>2
8
结 果
1 双变量偏态分布
图1和图2描绘了不同参数组合下Spearman 法(方法S)和Kendall 法(方法K)的相对误差。
由两图可见,两种偏度和峰度系数设置的结果相近。
样本相关系数r 均低于总体相关系数 。
样本量的变化对结果影响不大。
随总体相关系数的不同,Spearman 法变化不大;Kendall 法则有较大波动,总体相关系数愈小相对误差愈大。
Spearman 法的相对误差明显小于Kendall 法,即Spearman 方法的样本相关系数r 均比Kendall 方法更接近总体相关系数。
图1 偏态分布下Spear man 与K endall 方法相对误差
对比图( 1=0 75, 2=1 2)
590
中国卫生统计2008年12月第25卷第6期
图2 偏态分布下Spear man 与K endall 方法相对误差
对比图( 1=2, 2=7)
2 双变量等级资料
图3是双变量等级资料下两种方法的相对误差,
其形态与图1和图2类似,只是Spearman 法的相对误差小于Kendall
法的幅度不像偏态分布那样大。
图3 等级变量条件下Spearman 与Kendall
方法的相对误差对比图
结 论
在双变量偏态分布或等级资料条件下,
(1)Spearman 法估计的相关系数较Kendall 法更
接近总体相关系数。
(2)两种方法估计的样本相关系数均小于总体相关系数。
(3)样本量对两种方法的估计精度影响不明显。
(4)两种方法均表现出总体相关性越高,估计的相对误差越小。
概括而言,在双变量偏态分布或等级资料条件下,Spearman 法相对于Kendall 法为优选的估计方法。
Simulating C omparisons between Spearman and Kendall s tau -b Methods f or the Nonparametric Bivariant Correlation Analysis H u Jun ,Zhang Chao ,Chen Pingyan.Dep art ment of Biostatis-tics ,Souther n Medical U niver sity (510515),G uangz hou
Abstract Objective T o compare the di fferences betw een the
nonparametric bivariate correlation analysi s of Spearman method and Kendall s tau -b method by simulati ng different skew distributi ons or ordinal variables .Methods M onte Carlo simulating method w as used w ith SAS 9.13program.Tw o kinds of skew distributions;three different population correlation coefficients,and four different sample sizes w ere set up.The sample correlation coefficients and the relative errors w ere compared be -tw een the tw o nonparametri c methods.Results Sample correlation coeff-i cients of the Spearman method w ere more approximate to popul ation corre -lation coefficients than that of the Kendall s tau -b method.Conclusion S pearman method is better than Kendall s tau -b in nonparametric bivariant correlation analysis for th e data w i th skew ness distribution or ordinal var-i ables.
Key w ords Nonparametr ic co rrelation;Simulation re -
search;Spearman method;Kendall s tau -b method
参 考 文 献
1 Rosner B.Fundamentals of Biostatistics.Belmont:Thomson Brooks/Cole6th edi t,2006,540-544.
2 Daiel W W.Applied Nonparametric Stati stics.2nd Edit.PW S -KENT
Publishing Com pany,1990,365-375.
3 陈平雁.SPSS13.0统计软件应用教程.北京:人民卫生出版社出版,2005,9.
4 S am Kachigan.M ultivariate Statis tical Analysi s.2nd Edition.New York :Radius Press,1991,142-153.
5 S teel RGD,T orrie JH.Principle and procedures of stati stics.M egraw-H il l Book Co.Inc.New York,1960,183-193.
6 Fleishman AI.A M ethod for Simulating Non -Normal Di stributions.Psy -chometrika ,1978,(43):521-531.
591 Chinese Journal of H ealth S tatistics,Dec 2008,Vol.25,No.6。