统计分析方法的一点总结

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

统计分析⽅法的⼀点总结
1.1两组独⽴样本⽐较
1.1.1 资料符合正态分布,且两组⽅差齐性,直接采⽤t检验。

1.1.2 资料不符合正态分布,
(1)可进⾏数据转换,如对数转换等,使之服从正态分布,然后对转换后的数据采⽤t检验;
(2)采⽤⾮参数检验,如Wilcoxon检验(即,秩和检验)。

1.1.3 资料⽅差不齐,
(1)采⽤Satterthwate 的t’检验;(校正t检验,前提资料要服从正态分布)
(2)采⽤⾮参数检验,如Wilcoxon检验。

1.2两组配对样本的⽐较
1.2.1 两组差值服从正态分布,采⽤配对t检验。

1.2.2 两组差值不服从正态分布,采⽤wilcoxon的符号配对秩和检验。

1.3多组完全随机样本⽐较
1.3.1资料符合正态分布,且各组⽅差齐性,直接采⽤完全随机的⽅差分析(即,单因素⽅差分析)。

如果检验结果为有统计学意义,则进⼀步作两两⽐较,两两⽐较的⽅法有LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等。

1.3.2资料不符合正态分布,或各组⽅差不齐,则采⽤⾮参数检验的Kruscal-Wallis 法。

如果检验结果为有统计学意义,则进⼀步作两两⽐较,⼀般采⽤Bonferroni法校正P值,然后⽤成组的Wilcoxon检验。

1.4多组随机区组样本⽐较
1.4.1资料符合正态分布,且各组⽅差齐性,直接采⽤随机区组的⽅差分析。

如果检验结果为有统计学意义,则进⼀步作两两⽐较,两两⽐较的⽅法有LSD检验,Bonferroni 法,tukey法,Scheffe法,SNK法等。

1.4.2资料不符合正态分布,或各组⽅差不齐,则采⽤⾮参数检验的Fridman检验法。

如果检验结果为有统计学意义,则进⼀步作两两⽐较,⼀般采⽤Bonferroni法校正P 值,然后⽤符号配对的Wilcoxon检验。

****需要注意的问题:
(1)⼀般来说,如果是⼤样本,⽐如各组例数⼤于50,可以不作正态性检验,直接采⽤t检验或⽅差分析。

因为统计学上有中⼼极限定理,假定⼤样本是服从正态分布的。

(⼀般样本量N>50时,可认为样本是服从正态分布的)
(2)当进⾏多组⽐较时,最容易犯的错误是仅⽐较其中的两组,⽽不顾其他组,这样作容易增⼤犯假阳性错误的概率。

正确的做法应该是,先作总的各组间的⽐较,如果总的来说差别有统计学意义,然后才能作其中任意两组的⽐较,这些两两⽐较有特定的统计⽅法,如上⾯提到的LSD检验,Bonferroni法,tukey法,Scheffe法,SNK 法等。

**绝不能对其中的两组直接采⽤t 检验,这样即使得出结果也未必正确**(3)关于常⽤的设计⽅法:多组资料尽管最终分析都是采⽤⽅差分析,但不同设计会有差别。

常⽤的设计如完全随即设计,随机区组设计,析因设计,裂区设计,嵌套设计等。

2.分类资料
2.1四格表资料
2.1.1 例数⼤于40,且所有理论数⼤于5,则⽤普通的Pearson 检验。

2.1.2 例数⼤于40,所有理论数⼤于1,且⾄少⼀个理论数⼩于5,则⽤校正的检验或Fisher’s确切概率法检验。

2.1.3 例数⼩于40,或有理论数⼩于2,则⽤Fisher’s确切概率法检验。

2.2 2×C表或R×2表资料的统计分析
2.2.1 列变量&⾏变量均为⽆序分类变量,则(1)例数⼤于40,且理论数⼩于5的格⼦数⽬<总格⼦数⽬的25%,则⽤普通的Pearson 检验。

(2)例数⼩于40,或理论数⼩于5的格⼦数⽬>总格⼦数⽬的25%,则⽤Fisher’s确切概率法检验。

2.2.2列变量为效应指标,且为有序多分类变量,⾏变量为分组变量,⽤普通的Pearson 检验只说明组间构成⽐不同,如要说明疗效,则可⽤⾏平均分差检验或成组的Wilcoxon秩和检验。

2.2.3 列变量为效应指标,且为⼆分类变量,⾏变量为有序多分类变量,则可采⽤普通的Pearson 检验⽐较各组之间有⽆差别,如果总的来说有差别,还可进⼀步作两两⽐较,以说明是否任意两组之间的差别都有统计学意义。

2.3 R×C表资料的统计分析
2.2.1 列变量&⾏变量均为⽆序分类变量,则(1)例数⼤于40,且理论数⼩于5的格⼦数⽬<总格⼦数⽬的25%,则⽤普通的Pearson 检验。

(2)例数⼩于40,或理论数⼩于5的格⼦数⽬>总格⼦数⽬的25%,则⽤Fisher’s确切概率法检验。

(3)如果要作相关性分析,可采⽤Pearson相关系数。

2.2.2列变量为效应指标,且为有序多分类变量,⾏变量为分组变量,⽤普通的Pearson 检验只说明组间构成⽐不同,如要说明疗效或强弱程度的不同,则可⽤⾏平均分差检验或成组的Wilcoxon秩和检验或Ridit分析。

2.2.3 列变量为效应指标,且为⽆序多分类变量,⾏变量为有序多分类变量,则可采⽤普通的Pearson 检验⽐较各组之间有⽆差别,如果有差别,还可进⼀步作两两⽐较,以说明是否任意两组之间的差别都有统计学意义。

2.2.4 列变量&⾏变量均为有序多分类变量,(1)如要做组间差别分析,则可⽤⾏平均分差检验或成组的Wilcoxon秩和检验或Ridit分析。

如果总的来说有差别,还可进⼀步作两两⽐较,以说明是否任意两组之间的差别都有统计学意义。

(2)如果要做两变量之间的相关性,可采⽤Spearson相关分析。

2.4 配对分类资料的统计分析
2.4.1 四格表配对资料,(1)b+c>40,则⽤McNemar配对检验。

(2)b+c<40,则⽤校正的配对检验。

2.4.1 C×C资料,(1)配对⽐较:⽤McNemar配对检验。

(2)⼀致性检验,⽤Kappa 检验。

在SPSS软件相关分析中,pearson(⽪尔逊), kendall(肯德尔)和spearman(斯伯曼/斯⽪尔曼)三种相关分析⽅法有什么异同
两个连续变量间呈线性相关时,使⽤Pearson积差相关系数,不满⾜积差相关分析的适⽤条件时,使⽤Spearman秩相关系数来描述.
Spearman相关系数⼜称秩相关系数,是利⽤两变量的秩次⼤⼩作线性相关分析,对原始变量的分布不作要求,属于⾮参数统计⽅法,适⽤范围要⼴些。

对于服从Pearson 相关系数的数据亦可计算Spearman相关系数,但统计效能要低⼀些。

Pearson 相关系数的计算公式可以完全套⽤Spearman相关系数计算公式,但公式中的x和y⽤相应的秩次代替即可。

Kendall's tau-b等级相关系数:⽤于反映分类变量相关性的指标,适⽤于两个分类变量均为有序分类的情况。

对相关的有序变量进⾏⾮参数相关检验;取值范围在-1-1之间,此检验适合于正⽅形表格;
计算积距pearson相关系数,连续性变量才可采⽤;计算Spearman秩相关系数,适
合于定序变量或不满⾜正态分布假设的等间隔数据; 计算Kendall秩相关系数,适合于定序变量或不满⾜正态分布假设的等间隔数据。

计算相关系数:当资料不服从双变量正态分布或总体分布未知,或原始数据⽤等级表⽰时,宜⽤spearman或kendall相关Pearson 相关复选项积差相关计算连续变量或是等间距测度的变量间的相关分析 Kendall 复选项等级相关计算分类变量间的秩相关,适⽤于合并等级资料
Spearman 复选项等级相关计算斯⽪尔曼相关,适⽤于连续等级资料
注:
1若⾮等间距测度的连续变量因为分布不明-可⽤等级相关/也可⽤Pearson 相关,对
于完全等级离散变量必⽤等级相关
2当资料不服从双变量正态分布或总体分布型未知或原始数据是⽤等级表⽰时,宜⽤Spearman 或Kendall相关。

3 若不恰当⽤了Kendall 等级相关分析则可能得出相关系数偏⼩的结论。

则若不恰当使⽤,可能得相关系数偏⼩或偏⼤结论⽽考察不到不同变量间存在的密切关系。

对⼀般情况默认数据服从正态分布的,故⽤Pearson分析⽅法。

在SPSS⾥进⼊Correlate-》Bivariate,在变量下⾯Correlation Coefficients复选框组
⾥有3个选项:
Pearson
Kendall's tau-b
Spearman:Spearman
spearman(斯伯曼/斯⽪尔曼)相关系数
斯⽪尔曼等级相关是根据等级资料研究两个变量间相关关系的⽅法。

它是依据两
列成对等级的各对等级数之差来进⾏计算的,所以⼜称为“等级差数法”
斯⽪尔曼等级相关对数据条件的要求没有积差相关系数严格,只要两个变量的观
测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料,不论两个变量的总体分布形态、样本容量的⼤⼩如何,都可以⽤斯⽪尔曼等级相关来进⾏研究
Kendall's相关系数
肯德尔(Kendall)W系数⼜称和谐系数,是表⽰多列等级变量相关程度的⼀种⽅法。

适⽤这种⽅法的数据资料⼀般是采⽤等级评定的⽅法收集的,即让K个评委(被试)评定N件事物,或1个评委(被试)先后K次评定N件事物。

等级评定法每个评价
者对N件事物排出⼀个等级顺序,最⼩的等级序数为1 ,最⼤的为N,若并列等级时,则平分共同应该占据的等级,如,平时所说的两个并列第⼀名,他们应该占据1,2名,所以它们的等级应是1.5,⼜如⼀个第⼀名,两个并列第⼆名,三个并列第三名,
则它们对应的等级应该是1,2.5,2.5,5,5,5,这⾥2.5是2,3的平均,5是4,5,6的平均。

肯德尔(Kendall)U系数⼜称⼀致性系数,是表⽰多列等级变量相关程度的⼀种⽅法。

该⽅法同样适⽤于让K个评委(被试)评定N件事物,或1个评委(被试)先后K
次评定N件事物所得的数据资料,只不过评定时采⽤对偶评定的⽅法,即每⼀次评定都要将N个事物两两⽐较,评定结果如下表所⽰,表格中空⽩位(阴影部分可以不管)填⼊的数据为:若i⽐j好记1,若i⽐j差记0,两者相同则记0.5。

⼀共将得到K张
这样的表格,将这K张表格重叠起来,对应位置的数据累加起来作为最后进⾏计算的数据,这些数据记为γij。

正态分布的相关检验
对来⾃正态总体的两个样本进⾏均值⽐较常使⽤T检验的⽅法。

T检验要求两个被⽐较的样本来⾃正态总体。

两个样本⽅差相等与不等时⽤的计算T值的公式不同。

(此刻样本量对t检验⽅差不齐时使不使⽤校正公式的影响较⼤,参考:
/doc/7bad83b2326c1eb91a37f111f18583d048640f9f.html /cn/2010/01/unequal-variance-in-t-test/)
进⾏⽅差齐次性检验使⽤F检验。

对应的零假设是:两组样本⽅差相等。

P值⼩于
0.05说明在该⽔平上否定原假设,⽅差不齐;否则两组⽅差⽆显著性差异。

U检验时⽤服从正态分布的检验量去检验总体均值差异情况的⽅法。

在这种情况下总体⽅差通常是已知的。

虽然T检验法与U检验法所解决的问题⼤体相同,但在⼩样本(样本数n)=30作为⼤样本)且均⽅差未知的情况下就不能⽤U 检验法了。

均值检验时不同的数据使⽤不同的统计量
使⽤MEANS过程求若⼲组的描述统计量,⽬的在于⽐较。

因此必须分组求均值。

这是与Descriptives过程不同之处。

检验单个变量的均值是否与给定的常数之间存在差异,⽤One-Sample T Test 单样本T检验过程。

检验两个不相关的样本是否来⾃来具有相同均值的总体,⽤Independent-Samples T test 独⽴样本t检验过程。

如果分组样本不独⽴,⽤Paired Sample T test 配对t检验。

如果分组不⽌两个,应使⽤One-Way ANOVA⼀元⽅差分析(⽤于检验⼏个独⽴的组,是否来⾃均值相等的总体)过程进⾏单变量⽅差分析。

如果试图⽐较的变量明显不服从正态分布,则应该考虑使⽤⼀种⾮参数检验过程Nonparametric test.
如果⽤户相⽐较的变量是分类变量,应该使⽤Crosstabs功能。

当样本值不能为负值时⽤右侧单边检验。

1.Bartlett检验,会同时检验出样本的正态性以及样本间的⽅差齐性。

2.线性约束有⼀个特别有⽤的⽤法:当不同组与不同的某种特定的数量(⽐
如剂量)相对应时,线性约束中的系数可以取成能反应上述数量关系的值。

在不同组中样本量相差很⼤时,这特别有⽤。

因为⼩样本的组在统计检验时常易出现不显著的结果,但其趋势常在某个⽅向上。

(线性约束有点意思!不过它的H0假设还是没弄明⽩,<<⽣物统计学基础>> 第500页,还有线性约束条件下的多重检验,Scheffe法)
3.Kruskal-Wallis检验,适⽤于⽐较各组中位数的⾮参数检验,当数据的正态
性假设不成⽴时,常⽤于取代单向⽅差分析的备选⽅法。

4.重复性研究中变异系数的估计。

要求标准差独⽴于均数。

主要公式:CV=100% * (标准差/平均值)。

如果标准差不独⽴于均数,计算CV时,要先对每个值取对数变换,之后在计算。

(主要细节:<<⽣物统计学基础>>第533页)
################################################ 总体分布正态性检验
进⾏参数估计和假设检验时,通常总是假定总体服从正态分布,虽然在许多情况下这个假定是合理的,但是当要以此为前提进⾏重要的参数估计或假设检验,或者⼈们对它有较⼤怀疑的时候,就确有必要对这个假设进⾏检验,
进⾏总体正态性检验的⽅法有很多种,以下针对MATLAB统计⼯具箱中提供的程序,简单介绍⼏种⽅法。

1)Jarque-Bera检验
利⽤正态分布的偏度g1和峰度g2,构造⼀个包含g1,g2的
分布统计量(⾃由度n=2),对于显著性⽔平
,当
分布统计量⼩于
分布的
分位数
时,接受H0:总体服从正态分布;否则拒绝H0,即总体不服从正态分布。

这个检验适⽤于⼤样本,当样本容量n较⼩时需慎⽤。

Matlab命令:h =jbtest(x),[h,p,jbstat,cv] =jbtest(x,alpha)。

2)Kolmogorov-Smirnov检验
通过样本的经验分布函数与给定分布函数的⽐较,推断该样本是否来⾃给定分布函数的总体。

容量n的样本的经验分布函数记为Fn(x),可由样本中⼩于x的数据所占的⽐例得到,给定分布函数记为G(x),构造的统计量为
,即两个分布函数之差的最⼤值,对于假设H0:总体服从给定的分布G(x),及给定的
,根据Dn的极限分布(n?¥时的分布)确定统计量关于是否接受H0的数量界限。

因为这个检验需要给定G(x),所以当⽤于正态性检验时只能做标准正态检验,即H0:总体服从标准正态分布。

Matlab命令:h =kstest(x)。

3)Lilliefors检验
它将Kolmogorov-Smirnov检验改进⽤于⼀般的正态性检验,即H0:总体服从正态分布
,其中
由样本均值和⽅差估计。

Matlab命令:h =lillietest(x),[h,p,lstat,cv]= lillietest(x,alpha)。

⽅差分析⼀些归纳
(2010-01-11 13:37:57)
⽅差分析(ANOVA,analysis of variance)也叫F检验,由英国统计学家R. A. Fisher⾸先提出,因此也以他的名字命名。

1. 为什么要使⽤⽅差分析(核⼼原因,在于降低假阳性!)
与t检验⼀样,⽅差分析也是⽐较样本平均数的⼀种⽅式。

t检验⽐较的是两个样本平均数的差异,当样本个数增多,如果仍⽤t 检验进⾏两两⽐较,那么就会增加犯错的概率。

因为每次检验不犯错的概率为1-0.05=0.95,那么多次(n次)检验下来,不犯错的概率则为(1-0.05)*n,随着n的增⼤,犯错的概率就会逐渐增多。

因此,当n⼤于2时,需要使⽤⽅差分析,它可以有效地控制第⼀类错误。

2. ⽅差分析的基本思想
⽅差分析的统计思想与“变异”紧密联系。

全部测量值与总平均数的差异为总变异;各组平均数与总平均数的差异为组间变异,反映随机误差与处理的作⽤;每组的原始数据与该组平均数的差异为组内变异,反映随机误差的影响。

影响事物(如:因变量)的因素有多种,根据不同的处理分为不同的组别(或:不同的处理条件),⽅差分析的基本的假设是------H0:各样本来⾃均数相等的总体(即:各条件之间⽆显著差异);H1:各样本均数不等或不全相等,表明各样本并⾮来⾃同⼀总体(各条件之间存在显著差异)。

以下以“样本”、“总体”为例来说明。

在此,“样本”类似于实验或调查中的“各种条
件”(即不同⽔平的⾃变量)。

样本中的个体差异产⽣组内变异;如果调查的样本分为不同组别,那么组间也可能存在差异,即为组间变异,组间变异可能是抽样导致的,也可能由各组的处理不同导致;组内变异和组间变异加在⼀起,形成总变异。

组间变异除以组内变异,可以看出⼆者的关系。

若⼆者的⽐等于1,则表明,组间变异是由组内变异造成的,不存在处理的作⽤,当然这是理论上的,世界上没有两⽚完全相同的叶⼦,也没有两个完全相同的⼈,由于实际上存在抽样误差,因此,组间与组内变异往往不会刚好相等,但如果不会相差太⼤,那么接受“各样本来⾃均数相等的总体”的假设;但如果两者的明显⼤于1且超出了某个临界值,则表明组间变异远⼤于组内变异,此时接受“各总体的均数不全相等”的假设,意味着⼆者的差异不仅是抽样误差导致的,更有处理的作⽤。

变异由“均⽅”度量,圴⽅是由离差平⽅和(SS,sum of squares)和⾃由度(df,freedom)得到的,圴⽅=离差平⽅和/⾃由度,使⽤均⽅可以消除各组样本量(即⾃由度)的影响。

根据实验⽬的和各种条件,把总差异以及总⾃由度分为不同的部分,再算出各种条件下的变异(MS1、2、3…),⽐较不同条件的变异与组内变异,就可得出是否处理起了作⽤。

常说的“差异显著”其实是⽐较出了不同处理的作⽤。

3. ⽅差分析的前提及种类
⽅差分析的前提是:(1)数据具有可⽐性,数据是独⽴的,即各样本是相互独⽴的;(2)数据为正态分布,即各样本来⾃正态总体;(3)各组的⽅差齐性。

⽅差分析主要有单因素⽅差分析(如完全随机设计)、多因素⽅差分析(包括两因素⽅差分析)。

4. 重复测量⽅差分析(以⼼理学实验为例)
在⼼理学实验中,当被试参与了所有的实验条件,且各种实验条件有相当的重复次数(远⼤于1次)时,统计时要考虑重复测量⽅差分析。

因为此时对因变量的测量是重复的,⼀种重复的测量得到的数据并⾮独⽴的,⽽是相关的,所以,不符合多因素⽅差分析中数据独⽴的前提。

重复测量的数据可以使⽤SPSS统计软件进⾏统计。

其中输出的结果中先看球形检验的结果。

“球形检验的结果只决定你将要⽤
哪种输出结果”。

如果不满⾜球形检验的结果,就需要对结果进⾏校正,可以使⽤Greenhouse-Geisser(G-G)和Huynh-Feldt (H-F)⽅法进⾏校正。

G-G校正系数⽐较保守,有的会使⽤HF校正系数。

在重复测量分析中,有四种多变量分析的⽅法较常见:Wilks’Lambda,Pillai’s Trace,Hotelling-Lawley Trace和Roy’s Greatest Root。

使⽤SPSS 分析得出的结果列表中,Multivariate Tests中就可以体现出这⼏种⽅法。

5. 主效应、交互作⽤及其它
检验主效应、交互作⽤,如果存在交互作⽤,则须进⼀步进⾏简单分析以判断各⾃变量的具体作⽤。

有交互作⽤时(如因素A、B有交互作⽤),要在A因素不同⽔平下看B因素的效应,同样,也要在B因素的不同⽔平下看A因素的效应。

当交
互作⽤不显著时,再解释主效应。

(疑问:如果交互作⽤显著了,是否还要讨论主效应?是依情况⽽定吗?)
另外,多因素⽅差分析只能分析出因素之间的交互作⽤是否对因变量存在显著影响,但不能得出具体的影响⼤⼩。

如果需要得到具体的影响,需要⽤到回归分析。

⾮参数统计分析――Nonparametric Tests菜单详解
平时我们使⽤的统计推断⽅法⼤多为参数统计⽅法,它们都是在已知总体分布的条件下,对相应分布的总体参数进⾏估计和检验。

⽐如单样本u检验就是假定该样本所在总体服从正态分布,然后推断总体的均数是否和已知的总体均数相同。

本节要讨论的统计⽅法着眼点不是总体参数,⽽是总体分布情况,即研究⽬标总体的分布是否与已知理论分布相同,或者各样本所在的分布位置/形状是否相同。

由于这⼀类⽅法不涉及总体参数,因⽽称为⾮参数统计⽅法。

SPSS的的Nonparametric Tests菜单中⼀共提供了8种⾮参数分析⽅法,它们可以被分为两⼤类:1、分布类型检验⽅法:亦称拟合优度检验⽅法。

即检验样本所在总体是否服从已知的理论分布。

具体包括:
Chi-square test:⽤卡⽅检验来检验⼆项/多项分类变量的⼏个取值所占百分⽐是否和我们期望的⽐例有没有统计学差异。

Binomial Test:⽤于检测所给的变量是否符合⼆项分布,变量可以是两分类的,也可以使连续性变量,然后按你给出的分界点⼀分为⼆。

Runs Test:⽤于检验样本序列随机性。

观察某变量的取值是否是围绕着某个数值随机地上下波动,该数值可以是均数、中位数、众数或⼈为制定。

⼀般来说,如果该检验P值有统计学意义,则提⽰有其他变量对该变量的取值有影响,或该变量存在⾃相关。

One-Sample Kolmogorov-Smirnov Test:采⽤柯尔莫哥诺夫-斯⽶尔诺夫检验来分析变量是否符合某种分布,可以检验的分布有正态分布、均匀分布、Poission分布和指数分布。

2、分布位置检验⽅法:⽤于检验样本所在总体的分布位置/形状是否相同。

具体包括:
Two-Independent-Samples Tests:即成组设计的两独⽴样本的秩和检验。

Tests for Several Independent Samples:成组设计的多个独⽴样本的秩和检验,此处不提供两两⽐较⽅法。

Two-Related-Samples Tests:配对设计的两样本秩和检验。

Tests for Several Related Samples:配伍设计的多样本秩和检验,此处同样不提供两两⽐较。

⼀、分布位置检验⽅法
1、Two Independent Samples Test与K Independent Samples Test
⽤于检验两独⽴样本/多独⽴样本所在总体是否相同。

Two-lndependent-Samples Test对话框:
(1)Test Variable框,指定检验变量。

(2)Grouping Variable框,指定分组变量。

Define Groups对话框,Groupl和Groupl 后的栏中,可指定分组变量的值。

(3)TestType框,确定⽤来进⾏检验的⽅法。

Mann-Whitney U:默认值,相当于两样
本秩和检验。

Kolmogorov-Smimov Z:K-S检验的⼀种。

Moses extreme reactions:如果施加的处理使得某些个体出现正向效应,⽽另⼀些个体出现负向效应,就应当采⽤该检验⽅法。

Wald-Wolfowitz runs:游程检验的⼀种,检验总体分布是否相同。

(4) Options对话框,选择输出结果形式及缺失值处理⽅式。

多个独⽴样本检验中不同之处:
Define Range对话框,定义分组变量值范围。

Minimum:分组变量范围的下限。

Maximum:上限。

Test Type框,确定⽤来进⾏检验的⽅法。

Kruskal-WallisH:默认值,单向⽅差分析,检验多个样本在中位数上是否有差异;Median:中位数检验,检验多个样本是否来⾃具有相同中位数的总体。

2、Two Related Samples Test与K Related Samples Test
Two Related Samples Test是考察配对样本的总体分布是否相同,或者说差值总体是否以0为中⼼分布;K Related Samples Test则⽤于检验多个配伍样本所在总体的分布是否相同。

Two-Related-SamplesTests对话框:
(1)Test Pair(s)List框,指定检验变量对。

可有多对。

(2)TestType框,确定检验的⽅法。

Wilcoxon:默认值,配对设计差值的秩和检验,利⽤次序⼤⼩。

Sign:符号检验,利⽤正负号。

McNemar:配对卡⽅检验,适⽤于两分类资料,特别适合⾃⾝对照设计。

Marginal Homogeneity:适⽤于资料为有序分类情况。

(3)Options对话框中,选择输出结果形式及缺失值处理⽅式,
K Related SamplesTest ⽤于多组间的⾮参数检验,不同之处在于:
A、⽐较⽅法不同:
☆Friedman:系统默认值,即最常⽤的随机区组设计资料的秩和检验,也被称为M检验。

☆Kendall's W:该指标也被称为Kendall和谐系数,它表⽰的是K个指标间相互关联的程度(⼀致性程度),取值在0~1之间。

☆Cochrarl's Q:是两相关样本McNemar检验在多样本情形下的推⼴,只适⽤于⼆分类变量。

B、Statistics对话框: Descriplive,描述统计量。

Quartiles,四分位数。

⼆、分布类型检验⽅法
原理:计算实际分布与理论分布间的差异,根据某种统计量求出P值。

1、Chi-square test
与⾏×列表卡⽅检验区别:Chi-square test是检验分类数据样本所在总体分布(各类别所占⽐例)是否与已知总体分布相同,是⼀个单样本检验。

⾏×列表卡⽅检验是⽐较两个分类资料样本所在的总体分布是否相同,在spss中要⽤crosstable菜单来完成。

具体做法:先按照已知总体的构成⽐分布计算出样本中各类别的期望频数,然后求出观测频数与期望频数的差值,最后计算出卡⽅统计量,利⽤卡⽅分布求出P值,得出检验结论。

例5.1 某地⼀周内各⽇死亡数的分布如表所⽰,请检验⼀周内各⽇的死亡危险性是否相同?
周⽇⼀⼆三四五六⽇
死亡数11 19 17 15 15 16 19
数据⽂件为death.sav:day 周⽇,death 死亡数。

Chi-Square Test对话框:
(1)Test Variable List框,指定检验变量,可为多个变量。

(2)ExpectedRange栏,确定检验值的范围。

Get from data选项,即最⼩值和最⼤值所确定的范围,系统默认该项。

Use specified range选项,只检验数据中⼀个⼦集的值,在Lower和Upper参数框中键⼊检验范围的下限和上限。

(3)ExpectedValues栏,指定期望值。

All categories equal选项,系统默认的检验值是所有组对应的期望值都相同,这意味着你要检验的总体是否服从均匀分布。

Values选项,选定所要检验的与总体是否服从某个给定的分布,并在其右边的框中键⼈相应各组所对应的由给定分布所计算
⽽得的期望值。

“Add”按钮,增加刚键⼊的期望值,必须⼤于0。

“Remove”按钮,移⾛错误值。

“Change”
按钮,替换错误值。

(4)Options对话框。

A、Statistics栏,选择输出统计量。

Descriptive:输出变量的均值、标准差、最⼤值、最⼩值、⾮
缺失个体的数量。

Quartiles 复选项,输出结果将包括四分位数的内容。

显⽰第25、50与75百分位数。

B、在MissingValues栏中选择对缺失值的处理⽅式。

具体操作如下:
Data →Weight Case →Weight Case by:→Frequency Variable: death→OK;
Analyze→Nonparametic Test→Chi-Square→Test variable list:day→OK。

卡⽅值X2=2.875,⾃由度(DF)=6,P=0.824,可认为⼀周内各⽇的死亡性是相同的。

2、Binomial Test(⼆项分布检验)
调⽤Binomial过程可对样本资料进⾏⼆项分布分析,检验⼆项分类变量是否来⾃概率为P的⼆项分布。

例5-2 某地某⼀时期内出⽣40名婴⼉,其中⼥性12名(Sex=0),男性28名(sex=1)。

问该地出⽣婴⼉的性⽐例与通常的男⼥性⽐例(总体概率约为0.5)是否不同?
数据⽂件为sex.sav。

Binomial Test对话框:
(1)Test Variable框,指定检验变量。

(2)Define Dichotomy栏,定义⼆分值。

Get from data选项,适⽤于指定的变量只有两个有效值,⽆缺失值。

Cut point选项,如果指定的变量超过两个值,选择该项,并在参数框中键⼊⼀个试算点的值。

(3)Test参数框,指定检验概率值。

默认的检验概率值是0.5,这意味着要检验的⼆项是服从均匀分
布的。

(3)Options对话框,选择输出结果形式及缺失值处理⽅式。

具体操作如下:
Binomial TestTest →Test Variable List →sex→Test Proportion →0.50→OK。

⼆项分布检验表明,⼥婴12名,男婴28名,观察概率为0.7(即男婴占70%,检验概率为0.5,⼆项分布检验的结果是双侧概率为0.018,可认为男⼥⽐例的差异有⾼度显著性,即与通常的0.5的性⽐例相⽐,该地男婴⽐⼥婴明显多。

3、Runs Test(游程检验)
⼀个游程是指某序列中同类元素的⼀个持续的最⼤主集,或者说⼀个游程是指依时间或其他顺序排列的有序数列中,具有相同的事件或符号的连续部分。

游程检验⽤于检验样本或任何序列的随机性。

例5-3 某村发⽣⼀种地⽅病,其住户沿⼀条河排列,调查时对发病的住户标记为1,⾮发病住户为0,共26户,如下表所⽰。

0 1 1 0 0 0 1 0 0 1 0 O 0 0 1 1 O 0 1 0 0 0 0 1 0 l
数据⽂件为run.sav:住户变量为epi。

Runs Test 对话框:
(1) Test Variable框,指定检验变量。

(2) Cut Point栏,确定划分⼆分类的试算点。

中位数、众数、均数及⽤户指定临界割点。

相关文档
最新文档