第十章 基于秩次的非参数检验
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
? 4.等级资料;
? 5.个别数据偏大或数据的某一端无确定的数据(俗 称开口资料)。如“ < 0.08mg”,只有一个下限或上 限,而没有一个具体的数值。
因此:
非参数检验: 对总体分布不做严格假
定,又称任意分布检验, 它直接 对总体分布位置、 分布形状进行比较。 优点:它不受总体分布的限制,适用范围 广。
? 例10-1 已知某地正常人尿铅含量的中位数 为2.50μmol/L。今在该地随机抽取16名工人, 测定尿铅含量见表10-1第(1)栏。问该厂工人 的尿铅含量是否高于当地正常人?
表10-1 某厂16名工人与当地正常人的尿铅含量(μmol/L)比较
尿铅含 差值di
量
di ? xi ? 2.50 秩次
? Wilcoxon于1945年提出的符号秩和检验,亦 称符号秩和检验,可用以推断:
总体中位数是否等于某个指定值
配对样本差值的总体中位数是否为0
一、单样本资料的符号秩和检验
? 适用条件: Wilcoxon符号秩和检验常用于不满足 t检验 条件的单样本定量变量资料的比较。
? 目的: 推断样本中位数与已知总体中位数(常为标准 值或大量观察的稳定值)是否相等。
-1
-2
-3
0.62 -1.88 -12
0.78 -1.72 -10
2.13 -0.37 -5
2.48 -0.02 -1
2.54 -0.04
2
2.68 0.18
3
2.73 0.23
4
3.01 0.51
6
尿铅 差值di 含量di ? xi ? 2.50
-1
-2
秩次 -3
3.13 0.63
7
3.27 0.77
? 1:建立检验假设,确定检验水准 H0:差值的总体中位数等于0,即该厂工人的 尿铅含量与正常人相同 H1 :差值的总体中位数大于0,即该厂工人的 尿铅含量高于正常人
? 单侧 ? =0.05
? 2.计算检验统计量 T值
(1)求差值:di ? xi ? 2.50
(2)编秩: 依差值的绝对值由小到大编秩。遇差值 为0,舍去不计, n随之减少。当差值绝对值相等,若 符号不同,求平均秩次;若符号相同,可顺次编秩, 也可求平均秩次。并将各秩次冠以原差值的正、负号。
?
? Zc=
T ? n(n?1)/ 4 ? 0.5 n(n?1)(2n?1)? (t3j ? tj)
24
48
? 式中(j=1,2,…)为第个相同秩次 (即平均秩次 )的个数,
假定有2个差值为“ 1.5”,3个差值为“ 6”,5差值为个
“13”,则 t=1 2, t 2=3, t3 =5,故有
8
3.54 1.04
9
4.38 1.88 12
4.38 1.88 12
5.05 2.55 14
6.08 3.58 15
11.27 8.77 16
T?= 108 T-= 28
? 对做正态性检验得W ? 0.8091, P ? 0.0036, 不满足单样本t检验条件,故选用Wilcoxon符 号秩和检验。
?
n(n ? 1)(2n ? 1) / 24
(10-1)
? 式中0.5为连续性校正数,因为 Z 值是连续的,而 T 值却不连续。
Leabharlann Baidu
? 排序时,出现相同秩次的现象称为相持( tie)。
当相持的情形较多时 (如个体数超过 25%),用式(10-
1)计算的值偏小,可按式 (10-2)计算校正的统计量,
经校正后, Zc 适当增大, P 值相应减小。
故可认为该厂工人尿铅含量高于当地正常人。
(2)正态近似法
? 随着n 的增大,分布逐渐逼近均数为 n(n ? 1)/ 4,方差 为 n(n ? 1)(2n ? 1)/ 24的正态分布。当时,近似程度较满意。 故可由式 (10-1) 计算标准正态统计量:
?
Z= T ? n(n ? 1) / 4 ? 0.5
非参数检验最大的缺点:
检验效能较低,实际上根据国外 的一项研究,有些方法的检验效 能大约在参数检验方法的95%左右,
并非低得不能接受。
第十章 基于秩次的非参数检验
(1) 总体分布已知 如:正态分布
(2)总体分布非正态 变量变换
非正态分布
参数检验 非参数检验
主要内容:
1、配对设计资料的符号秩和检验 2、单样本和配对设计资料的符号秩和检验 3、两组独立样本比较的秩和检验 4、多组独立样本比较的秩和检验
统计推断方法
参数统计: 如t检验、方差分析 非参数统计 :如秩和检验、 Ridit分析
通常适用于下列资料:
? 1.总体分布为偏态或分布形式未知的计量资料(尤 其是n< 30的情况下);
? 2.总体分布不对称且无法转化为正态分布的资料;
? 3.对比组间方差不齐,又无适当变换方法达到方差 齐性的资料;
(3)分别求正、负秩和: 分别求正秩和与负秩和,正 秩和记为 T? ,负秩和记为 T- 。 本例, T? =108, T- =28。
由于 T? + T- =n(n+1)/2,检验计算是否正确。
查表法(5≤n≤50) 查配对设计用的 T界值表(附表 9)
? A:若检验统计量T值在上、下界值范围内,其 P值大于相应的概率水平;
? 若T值恰好等于界值,其 P值等于(一般是近似等于 )上 方相应概率;
? 若T值在上、下界值范围外,其 P 值小于相应概率,此
时右移一栏,再做比较,直至较好地估计 P值。
? 本例,由 n=16,T=28或T=108查附表9得单侧0.01
< P<0.025。按照 α=0.05水准,拒绝 H0 ,接受H1,
? B:若T值在上下界值上或范围外,则P值小于 相应的概率水平。
? C:若T值恰好等于界值,其P值等于(一般是 近似等于)相应概率水平。
? 3.确定 P 值,做出推断
? (1)查表法
? 当 n ≤50时,根据n和T查界值表(附表9,配对比较的
符号秩和检验用 )。
? 查表时,自左侧找到 n,用所得统计量值与相邻一栏的 界值相比较,若 T值在上、下界值范围内,其 P值大于 上方相应的概率;
基于秩次的非参数检验
? 目的:推断一个总体表达分布位置的中位数M 和已知M0、两个或多个总体的分布是否有差 别。
? 基本步骤:先将数值变量从小到大,或等级 从弱到强转换成秩后,再计算检验统计量。
? 特点:假设检验的结果对总体分布的形状差 别不敏感,只对总体分布的位置差别敏感。
第一节
单样本和配对设计资料的符号秩和检验
? 5.个别数据偏大或数据的某一端无确定的数据(俗 称开口资料)。如“ < 0.08mg”,只有一个下限或上 限,而没有一个具体的数值。
因此:
非参数检验: 对总体分布不做严格假
定,又称任意分布检验, 它直接 对总体分布位置、 分布形状进行比较。 优点:它不受总体分布的限制,适用范围 广。
? 例10-1 已知某地正常人尿铅含量的中位数 为2.50μmol/L。今在该地随机抽取16名工人, 测定尿铅含量见表10-1第(1)栏。问该厂工人 的尿铅含量是否高于当地正常人?
表10-1 某厂16名工人与当地正常人的尿铅含量(μmol/L)比较
尿铅含 差值di
量
di ? xi ? 2.50 秩次
? Wilcoxon于1945年提出的符号秩和检验,亦 称符号秩和检验,可用以推断:
总体中位数是否等于某个指定值
配对样本差值的总体中位数是否为0
一、单样本资料的符号秩和检验
? 适用条件: Wilcoxon符号秩和检验常用于不满足 t检验 条件的单样本定量变量资料的比较。
? 目的: 推断样本中位数与已知总体中位数(常为标准 值或大量观察的稳定值)是否相等。
-1
-2
-3
0.62 -1.88 -12
0.78 -1.72 -10
2.13 -0.37 -5
2.48 -0.02 -1
2.54 -0.04
2
2.68 0.18
3
2.73 0.23
4
3.01 0.51
6
尿铅 差值di 含量di ? xi ? 2.50
-1
-2
秩次 -3
3.13 0.63
7
3.27 0.77
? 1:建立检验假设,确定检验水准 H0:差值的总体中位数等于0,即该厂工人的 尿铅含量与正常人相同 H1 :差值的总体中位数大于0,即该厂工人的 尿铅含量高于正常人
? 单侧 ? =0.05
? 2.计算检验统计量 T值
(1)求差值:di ? xi ? 2.50
(2)编秩: 依差值的绝对值由小到大编秩。遇差值 为0,舍去不计, n随之减少。当差值绝对值相等,若 符号不同,求平均秩次;若符号相同,可顺次编秩, 也可求平均秩次。并将各秩次冠以原差值的正、负号。
?
? Zc=
T ? n(n?1)/ 4 ? 0.5 n(n?1)(2n?1)? (t3j ? tj)
24
48
? 式中(j=1,2,…)为第个相同秩次 (即平均秩次 )的个数,
假定有2个差值为“ 1.5”,3个差值为“ 6”,5差值为个
“13”,则 t=1 2, t 2=3, t3 =5,故有
8
3.54 1.04
9
4.38 1.88 12
4.38 1.88 12
5.05 2.55 14
6.08 3.58 15
11.27 8.77 16
T?= 108 T-= 28
? 对做正态性检验得W ? 0.8091, P ? 0.0036, 不满足单样本t检验条件,故选用Wilcoxon符 号秩和检验。
?
n(n ? 1)(2n ? 1) / 24
(10-1)
? 式中0.5为连续性校正数,因为 Z 值是连续的,而 T 值却不连续。
Leabharlann Baidu
? 排序时,出现相同秩次的现象称为相持( tie)。
当相持的情形较多时 (如个体数超过 25%),用式(10-
1)计算的值偏小,可按式 (10-2)计算校正的统计量,
经校正后, Zc 适当增大, P 值相应减小。
故可认为该厂工人尿铅含量高于当地正常人。
(2)正态近似法
? 随着n 的增大,分布逐渐逼近均数为 n(n ? 1)/ 4,方差 为 n(n ? 1)(2n ? 1)/ 24的正态分布。当时,近似程度较满意。 故可由式 (10-1) 计算标准正态统计量:
?
Z= T ? n(n ? 1) / 4 ? 0.5
非参数检验最大的缺点:
检验效能较低,实际上根据国外 的一项研究,有些方法的检验效 能大约在参数检验方法的95%左右,
并非低得不能接受。
第十章 基于秩次的非参数检验
(1) 总体分布已知 如:正态分布
(2)总体分布非正态 变量变换
非正态分布
参数检验 非参数检验
主要内容:
1、配对设计资料的符号秩和检验 2、单样本和配对设计资料的符号秩和检验 3、两组独立样本比较的秩和检验 4、多组独立样本比较的秩和检验
统计推断方法
参数统计: 如t检验、方差分析 非参数统计 :如秩和检验、 Ridit分析
通常适用于下列资料:
? 1.总体分布为偏态或分布形式未知的计量资料(尤 其是n< 30的情况下);
? 2.总体分布不对称且无法转化为正态分布的资料;
? 3.对比组间方差不齐,又无适当变换方法达到方差 齐性的资料;
(3)分别求正、负秩和: 分别求正秩和与负秩和,正 秩和记为 T? ,负秩和记为 T- 。 本例, T? =108, T- =28。
由于 T? + T- =n(n+1)/2,检验计算是否正确。
查表法(5≤n≤50) 查配对设计用的 T界值表(附表 9)
? A:若检验统计量T值在上、下界值范围内,其 P值大于相应的概率水平;
? 若T值恰好等于界值,其 P值等于(一般是近似等于 )上 方相应概率;
? 若T值在上、下界值范围外,其 P 值小于相应概率,此
时右移一栏,再做比较,直至较好地估计 P值。
? 本例,由 n=16,T=28或T=108查附表9得单侧0.01
< P<0.025。按照 α=0.05水准,拒绝 H0 ,接受H1,
? B:若T值在上下界值上或范围外,则P值小于 相应的概率水平。
? C:若T值恰好等于界值,其P值等于(一般是 近似等于)相应概率水平。
? 3.确定 P 值,做出推断
? (1)查表法
? 当 n ≤50时,根据n和T查界值表(附表9,配对比较的
符号秩和检验用 )。
? 查表时,自左侧找到 n,用所得统计量值与相邻一栏的 界值相比较,若 T值在上、下界值范围内,其 P值大于 上方相应的概率;
基于秩次的非参数检验
? 目的:推断一个总体表达分布位置的中位数M 和已知M0、两个或多个总体的分布是否有差 别。
? 基本步骤:先将数值变量从小到大,或等级 从弱到强转换成秩后,再计算检验统计量。
? 特点:假设检验的结果对总体分布的形状差 别不敏感,只对总体分布的位置差别敏感。
第一节
单样本和配对设计资料的符号秩和检验