非参数检验
【统计分析】非参数检验
3. 查表与结论 查T界值表,T0.05(11)=10~56,T=3.5,在界 值范围外,P<0.05,拒绝H0。
符号检验(Sign test)
z n n 1 n
二、两样本比较的秩和检验 (Wilcoxon法)
适用条件:完全随机设计的两个样本比较,若不满足参数 检验的应用条件,则用本法;两个等级资料比较。
-0.45
-1
13
15.20
5.50
9.70
11
14
16.50
9.00
7.50
8.5
步骤
1. 建立假设:H0:差值的总体中位数=0, H1:差值的总体中位数0;
=0.05 2. 计算统计量
计算差值d,由小到大的顺序编秩次,并冠以原d 的正负号,然后分别求正负秩和,得到T+=73, T-=5,取秩和较小者作为检验统计量T=5 3. 查表及结论
1.0
2.5
4
17.00
6.50
10.50
12
5
13.00
5.50
7.50
8.5
6
18.00
13.50
4.50
5
7
17.50
10.00
7.50
8.5
8
10.20
10.20
0.00
-
9
10.00
10.00
0.00
-
10
10.50
9.50
1.00
2.5
11
13.80
6.80
7.00
6
12
3.03
3.48
第6章 非参数检验
3 1
17
8.5
8 4
5 2
13 6
7 3
19 10
8+9 = 8.5 2
中央财经大学统计学院 37
Wilcoxon符号秩检验:基本原理 符号秩检验: 符号秩检验
分别计算出差值序列中正数的秩和以及负 数的秩和。 显然,如果零假设成立,W+与W-应该比较 接近。如果二者过大或过小,则说明零假 设不成立。 将正数的秩和或者负数的秩作为检验统计 量,根据其统计分布计算p值,从而可以得 出检验的结论。
中央财经大学统计学院 38
特别说明
符号检验在匹配数据分析应用中只用到差 值的符号,而对差值数值的大小未能考虑, 因而失去了部分信息。Wilcoxon符号秩检 验既考虑差值的符号,又考虑差值的大小, 因此在所需的假设条件满足时其功效比符 号检验高。 Wilcoxon符号秩检验也可以用于单样本中 位数的非参数检验,这时只需要将第二个 样本的值设为零假设中的数值即可。
中央财经大学统计学院 33
符号检验
对于差值序列中正数的个数和负数的个数 按照符号检验的方法进行假设检验
中央财经大学统计学院
34
Wilcoxon符号秩检验:基本原理 符号秩检验: 符号秩检验
计算差值绝对值的秩 。 将差值绝对值从小到大排序,其位次就是 的秩(rank),等于0值不参与排序。
中央财经大学统计学院
中央财经大学统计学院 18
软件操作
在SPSS软件中打开数据文件,选择“分析” “非参数检 验” “1样本K-S”,在弹出的对话框中将“时间”设定为 检验变量;检验分布为默认的“常规”(正态分布)。单 击 “确定”
中央财经大学统计学院
19
结果分析
常见的几种非参数检验方法
常见的几种非参数检验方法非参数检验是一种不需要对数据进行假设检验的统计方法,它不需要满足正态分布等前提条件,因此被广泛应用于实际数据分析中。
在本文中,我们将介绍常见的几种非参数检验方法。
一、Wilcoxon符号秩检验Wilcoxon符号秩检验是一种用于比较两个相关样本之间差异的非参数检验方法。
它基于样本差异的符号和秩来计算统计量,并通过查表或使用软件进行显著性判断。
二、Mann-Whitney U检验Mann-Whitney U检验是一种用于比较两个独立样本之间差异的非参数检验方法。
它基于样本排名来计算统计量,并通过查表或使用软件进行显著性判断。
三、Kruskal-Wallis H检验Kruskal-Wallis H检验是一种用于比较多个独立样本之间差异的非参数检验方法。
它基于样本排名来计算统计量,并通过查表或使用软件进行显著性判断。
四、Friedman秩和检验Friedman秩和检验是一种用于比较多个相关样本之间差异的非参数检验方法。
它基于样本排名来计算统计量,并通过查表或使用软件进行显著性判断。
五、符号检验符号检验是一种用于比较两个相关样本之间差异的非参数检验方法。
它基于样本差异的符号来计算统计量,并通过查表或使用软件进行显著性判断。
六、秩相关检验秩相关检验是一种用于比较两个相关样本之间关系的非参数检验方法。
它基于样本排名来计算统计量,并通过查表或使用软件进行显著性判断。
七、分布拟合检验分布拟合检验是一种用于检验数据是否符合某个特定分布的非参数检验方法。
它基于样本数据与理论分布之间的差异来计算统计量,并通过查表或使用软件进行显著性判断。
八、重复测量ANOVA重复测量ANOVA是一种用于比较多个相关样本之间差异的非参数检验方法。
它基于样本方差和均值来计算统计量,并通过查表或使用软件进行显著性判断。
九、Bootstrap法Bootstrap法是一种用于估计总体参数和构建置信区间的非参数方法。
它基于自助重采样技术来生成大量虚拟样本,以此估计总体参数和构建置信区间。
8非参数检验
②正态近似法:
u | T n0 ( N 1) / 2 | n1n2 ( N 1) / 12
本例u 2.205 0.05/ 2 1.96
N3 N ; 3 3 N N (ti ti )
i
*校正公式(当相同秩次较多时)
uc u c; c
ti为第i个相同秩号的数据个数
假定:两组样本的总体分布形状相同
如果两总体 分布相同
基本思想
两样本来自同一总体 任一组秩和不应太大或太小
T 与平均秩和 n0 (1 N ) / 2 应相差不大
较小例数组的秩和, n1 n2 T min( R1 , R2 ), n1 n2
N n1 n2 n0 min( n1 , n2 )
控制 显效 有效 近控
65 18 30 13 126
107 24 53 24
1-107 108-131 132-184 185-208
54 119.5 158 196.5
编号 1 2
病情 单纯型 单纯型合并肺气肿
疗效 控制 显效
3
4 … 206 207
单纯型合并肺气肿
单纯型 … 单纯型 单纯型合并肺气肿
10 12(12 1) / 4 | R n(n 1) / 4 | u 2.275 n(n 1)(2n 1) / 24 12(12 1)(2 12 1) / 24
查标准正态分布表,得 P 值 校正公式: (当相同秩次个数较多时)
u
| R n(n 1) / 4 | n(n 1)(2n 1) / 24 (ti3 ti ) / 48 10 12(12 1) / 4
第一节 非参数检验的概念
非参数检验
200
取显著性水平为0.05,查 2 分布表得临界值
2 0.05
(4)
9.488
,由于
2统计量大于临界值,所以应该拒
绝原假设,即认为消费者对各种品牌茶叶的偏好是有差
别的。
二、符号检验
1. 单样本位置的符号检验
一个随机样本,有 n 个数据
x1,x2,…,xn,其实际的总体中位数为
M,假定的中位数是某个特定值,记 做 M0 。位置检验是检验真实的中位 数和假定的中位数的关系:大于、等 于还是小于。
品牌,每一种只标上A、B、C、D、E,随机抽取1000消费 者,每人都品尝五种茶叶,然后把最偏好的茶叶的字母 写下来。下表是整理后的消费者偏好的频数分布。要求 判断消费者对这几种品牌茶叶的偏好有没有差异?
各种品牌茶叶爱好者的频数分布
喜欢的品牌
A B C D E
合计
人数
220 302 175 80 223
一、 检验
属于拟合程度检验,它是利用随机 样本对总体分布与某种特定
分布拟合程度 的检验 。
检验步骤:
① 确立原假设和备择假设。 ② 按照“原假设为真”的假定,导出 一组期望频数或理论频数。 ③ 计算 2 统计量 。
2 k ( fi ei )2
i1
ei
若统计量的值较大,拒绝原假设。
【例10.14】假定有五种不同牌号的茶叶,但都未标明
市场调查
【例10.15】领导者的领导水平是可以训练的吗?
根据人的聪明程度、人品、受教育状况等,随机抽取30 人配成15对,每对中有一人随机选择受训,另一人不受 训。经过一段时间后,按被设计好的问题评价他们的领 导水平,结果如下表所示。
领导水平评价表
非参数检验
两种方法治疗扁平足效果观察
建立假设
病例号
原始记录 A法 B法
量化值 A法 B法
差值
秩次
H0:两法疗效差值的总体中位数
1 2
为0;
3
4
H1:差值的总体中位数不为0。
5
6
=0.05
7
8
计算检验统计量
9
10
编秩:
11
12
求秩和:T+=61.5,T-
13
=4.5
14 15
好
差
好
好
好
差
好
中
差
中
中
差
好
中
好
差
秩和(rank sum): 同组秩次之和;在一定程度上反映了等级 的分布位置。
秩和检验:就是通过秩次的排列求出秩和,进行假设检验。
11
非参数检验 (nonparametric test )
非参数检验的最常用方法——秩和检验( rank test ) 利用秩的大小进行推断就避免了不知道背景分布的
困难。这也是非参数检验的优点。 多数非参数检验明显地或隐含地利用了秩的性质;
但也有一些非参数方法没有涉及秩的性质。 掌握对数据进行编秩的方法是学习秩和检验的基本
要求。
12
非参数检验 (nonparametric test )
非参数检验的最常用方法——秩和检验( rank test )
A组: - 、、+、+、+、+、++、++、++、++、+++、+++
适用条件: (1)上述两种设计类型的资料不满足参数检 验条件。 (2)配对设计等级资料的比较。
非参数检验
组别 95-99 90-94 85-89 80-84 75-79 70-74 65-69 60-64 55-59 50-54 45-49
fo 4 12 18 28 44 72 46 40 22 18 10 314
组上限 99.5 94.5 89.5 84.5 79.5 74.5 69.5 64.5 59.5 54.5 49.5
fe 行合计数 列合计数 总次数
, fb , fd
( a b )( b d ) abcd ( c d )( b d ) abcd
注意:2×2列联表的自由度df=(2-1)(2-1)=1
例 为比较某新药与传统药物治疗脑动脉硬化的疗效, 临床试验结果见表,问两种药物的疗效有无差异? 表 两种药物治疗脑动脉硬化的疗效 处理措施 新药组 有效 无效 合计 44 24 68
41(38.18) 3(5.82)
传统药物组 18(20.82) 6(3.18) 合计 59 9
• 4、关于2×2列联表在数据合并上应注意 的问题 • 2×2列联表只是 的一个特例,实际上, 在很多情况下,变量的分类不止两个,当 我们把各部分数据合并成2×2列联表来表 达时,可能会忽略其中一些重要的变量, 造成 检验的失真,即可能会出现这样的 情况:单独分析每一个2×2列联表所得的 结果与合并成一个2×2列联表所做的 分 析结果相矛盾。
2
( 69 74 . 4 ) 74 . 4
(16 11 . 6 ) 11 . 6
22 . 2748
• 3、推断:
取 0 . 05 , df 5 1 4 , 查表得: 22 . 2748
2 2 0 . 05 ( 4 ) 2 0 . 05 ( 4 )
语言统计第十一章 非参数检验
第一步: 陈述零假设H0和备择假设H1
第二步: 设定显著水平a
第三步:计算每一对观测值之差,并记下 差的符号〔即正值还是负值〕 。
第四步:不考虑差的正负号,按其绝对值 从小到大排序〔即赋予每个差一个 “秩 〞 〕 。 如果差为零, 即两观测值相同,那 么排除在外, 不再参加以后的分析〔观测值 的对子的个数N就相应减少一个〕 ; 如差 相同, 那么像曼惠特尼U检验那样,将其 在不并列的情况下所应占得等级的平均值
决定使用哪个检验:
原那么—当使用t检验的条件满足时,应尽量使用t 检验,因为它毕竟能更充分地利用数据中的信息, 因而能更容易发现总体之间存在的真正差异。
总之,如果t检验的条件得到了满足或根本满足, 就尽量使用t检验,反之,如果数据为顺序数据, 或虽是等距数据,但所来自的总体严重偏态,就 应使用U检验。
例如,我们请两个人在一个0-7〔0表示 “完全可 以接受〞,7表示完全不可以接受〞 〕 的量表上 对15个句子的可接受程度 〔acceptability〕 打分, 结果如表11.3所示。
我们现在检验一下在0.05的显著水平上两人所打 的分是否有显著差异 〔双尾〕 。 我们先计算每 对分数之差, 记下差的符号 〔表中第四列〕, 其中4个差为正号,8个为负号,即S=4.由于有3 个差为零,所以有效数据只有12对,即N=12.查 表得临界值为2,由于S值大于临界值, 所以不 能推翻零假设,因而两人的分数没有显著差异。
符号检验的原理是:如果样本所来自的总休的分 布没有差异,那么正差的个数就应大体等于负差 的个数。符号检验的目的就是检验一下正负差的 个数之间有无显著差异。
符号检验的步骤是: 记录下每一对观测值 〔等 级〕 之差的方向, 而不是差本身 〔如一对观测 值相等, 即其差为零, 就将其排除在外, 观测 值的对子数N也随之减少〕,然后计算符号出现 次数较少的观测值的对子个数,记为S作为检验 统计值。附表9给出了S的临界值,如果S值小于 或等于临界值,就可以推翻零假设。
第十一章非参数检验
第一节 非参数检验的基本概念及特点一、非参数检验(一)什么是“非参数”非参数模型:缺乏总体分布模式的信息。
(二)非参数检验的定义非参数检验:不需要假设总体是否为正态分布或方差是否为齐性的假设检验称非参数检验. (三)非参数检验的优点和缺点: 1、优点:一般不涉及总体参数,其假设前提也比参数假设检验少得多,适用面较广。
计算简便。
2、缺点:统计效能远不如参数检验方法。
由于当数据满足假设条件时,参数统计检验方法能够从其中广泛地充分地提取有关信息.非参数统计检验方法对数据的限制较为宽松,只能从中提取一般的信息,相对参数统计检验方法会浪费一些信息。
(四)非参数检验的特点: 1、它不需要严格的前提假设; 2、特别适用于顺序数据; 3、适用于小样本,且方法简单;4、最大的不足是不能充分利用资料的全部信息;5、不能处理“交互作用”,即多因素情况。
第二节 两个独立样本的非参数检验方法一、秩和检验法秩和即秩次的和或等级之和。
秩和检验法也叫Mann —Whitney —Wilcoxon 检验,它常被译为曼-惠特尼-维尔克松检验,简称M —W-W 检验,也称Mann-Whitney U 检验。
秩和检验法与参数检验法中独立样本的t 检验法相对应。
当“总体正态”这一前提不成立时,不能用t 检验,可以用秩和检验法。
(一)秩统计量秩统计量指样本数据的排序等级.假设从总体中反复抽取样本,就能得到一个对应于样本容量1n 和2n 的秩和U 的分布.这是一个间断而对称的分布,当1n 和2n 都大于10时,秩和T 的分布近期近似正态分布,其平均数和标准差分别为()21211++=n n n T μ ()1212121++=n n n n T σ其检验值为TT σμ-=T Z(二)计算过程1、小样本:两个样本容量均小于10(n 1£10,n 2£10)例11—1:在一项关于模拟训练的实验中,以技工学校的学生为对象,对5名学生用针对某一工种的模拟器进行训练,内外让6名学生下车间直接在实习中训练,经过同样的时间后对两组人进行该工种的技术操作考核,结果如下:模拟器组:56,62,42,72,76实习组:68,50,84,78,46,92假设两组学生初始水平相同,则两种训练方式有无显著差异?表11—1 两种训练方式的成绩考核成绩 成绩排列 等级 等级和模拟器组 (5人) 56 42 1 251=T62 56 4 42 62 5 72 72 7 76 76 8 实习组 68 46 2 412=T(6人) 50 50 3 84 68 6 78 78 9 46 84 10929211检验过程:1.建立假设 0H :∑∑=21R R ,即两样本无显著差异 aH :∑∑≠21R R ,即两样本有显著差异2.计算统计量1)将数据从小到大排列,见上表。
非参数检验
非参数检验的优点:
①适用范围广,不论样本来自的 总体分布形式如何,都可适用;
②某些非参数检验方法计算简便, 研究者在急需获得初步统计结果时可 采用;
的总体分布不同。 α=0.05
2.混合编秩
依据两组数值由小到大编秩,结果 见上表。
3.求秩和并确定检验统计量T
把两组秩次分别相加求出两组的秩 和值,R1=315.5,R2=149.5。因乳 酸钙组样本含量较小,故 T=R2=149.5。
4.确定P值和作出推断结论 以较小样本含量为n1,n1=14, n2n1=2,查附表6,两样本比较秩和检验 用T界值表(双侧)。
当n1>20或(n2-n1)>10时,附表6 中查不到P值,则可采用正态近似法求u 值来确定P值,其公式如下:
u T n1(N 1) / 2 0.5 n1n2(N 1) 12
上式中T为检验统计量值,n1、n2 分别为两样本含量,N=n1+n2,0.5这 连续性校正数。上式为无相同秩次时使 用或作为相同秩次较少时的近似值。当 两样本相同秩次较多(超过总样本数的 25%)时,应按下式进行校正,u经校 正后可略增大,P值则相应减小。
式中,Ri为各组的秩和,ni为各组 样本含量,N为总样本含量。
当各组相同秩次较多时,可对H值进 行校正,按下式求值。
Hc H c
C 1
(t
3 j
t
j
)
(N3 N)
4.确定P值和作出推断结论
当组数K=3,每组样本含量ni≤5时, 可查附表7(H界值表)得到P值。若 k>3或ni>5时,H值的分布近似于自 由度为k-1的χ2分布,此时可查附表 4χ2界值表得到P值。最后按P值作出 推断结论。
非参数检验
用来检验样本与某一理论分布是否有明显差异,是一种 拟合优度检验方法,适用于探索连续随机变量分布。 如:分析储户总体一次性存款金额的分布与正态分布的 差异性等。 原假设:样本来自的总体与制定的理论分布无明显差异。 SPSS理论分布主要有:正态分布、均匀分布、指数分 布、泊松分布等。
均匀分布或称规则分布。植物种群的个体是
比较不同职业储户存款金额分布
配对样本非参数检验
连续数据——符号秩检验:也是检验两样本的总体分布
二元数据——McNemar
被试对象在实验前后被抽查两次,分别计算初 始反应比率与最终反应比率的差异
分类变量——边缘同质检验
使用卡方分布检验实验干涉前后设计中反应的 变化。
多个配对样本的非参数检验
这类资料有如下特点:
(1)资料的总体分布类型未知; (2)资料分布类型已知,但不符合正态分布; (3)某些变量可能无法精确测量如等级资料。 对这类资料可以采用非参数统计:即不考虑 总体分布类型是否已知,不比较总体参数, 只比较总体分布的位置是否相同的统计方法。 此类资料可以采用非参数方法进行统计分析。
等距分布,或个体之间保持一定的均匀的间 距。均匀分布在自然情况下极为罕见,而人 工栽培的有一定株行距的植物群落即是均匀 分布。
泊松分布
常用的一种离散型概率分布
泊松分布适合于描述单位时 间内随机事件发生的次数。如 某一服务设施在一定时间内到 达的人数,电话交换机接到呼 叫的次数,汽车站台的候客人 数,机器出现的故障数,自然 灾害发生的次数等等。
例:分析储户一次性金额总体是否服从正态
分布。
两个独立样本的检验
服从正态分布式用T检验
但样本所属总体的分布类型不明或非正态时,
第十讲 非参数检验
分析完全随机设计的多样本计量资料时,若多样本观察指标不满足正态性和方差齐性, 不能进行方差分析, 以及多样本观察指标为等级 (有序分类) 资料, 宜采用 Kruskal-Wallis H 秩和检验。
14
第二节秩和检验 —完全随机设计多样本的秩和检验
【例11-4】某医生在研究再生障碍性贫血时, 测得不同程度再生障碍性贫血患者血清中可溶 性CD8抗原水平(U/ml),结果见表11-5,问不 同程度再生障碍性贫血患者血清中可溶性CD8抗 原水平有无差别?
通常规定,当 n1 n2 时,取较小样本的秩和作为检验统计量 T ;当 n1 n2 时,取秩和 较小者作为检验统计量 T 。
9
第二节秩和检验 —成组设计资料的秩和检验
【例11-2】某医院某医生对28例糖尿病早期微血管病 变的患者,按年龄、性别、病程、中医证候评分、生存 质量量表评分、饮食控制等情况,随机分为两组,试验 组采用西药加中药联合治疗方法,对照组采用西药加安 慰剂治疗方法,治疗4周,测定24小时尿蛋白改变量, 结果见表11-3,问该中药对糖尿病患者早期微血管病变 有无疗效?
16
第二节秩和检验 —完全随机设计多样本的秩和检验
【例11-5】探讨中药联合NB-UVB治疗寻常性银 屑病的临床疗效。95例患者分为3组,治疗组35 例给予NB-UVB照射,同时中药浴疗;对照1组33 例予NB-UVB照射,对照2组30例给予中药浴疗。 结果见表11-6,试比较三组疗效是否有差异?
4
第一节 非参数检验简述
表 11-1 参数检验与非参数检验的区别 非参数检验 推断总体分布,如中位数是否相等,是 否符合某种分布 参数检验 推断总体的参数,如算数均数、方 差、率是否相等 已知总体分布:如正态分布、二项 分布、poission 分布
医学统计学-非参数检验
无效
8
合计
B(10-12天)
9
10
7
4
C(21-30天) 16
10
3
1
视分组为无序,即为单向有序表
三总体分布位置相同
三总体分布位置不全同
2. SPSS中实现过程
在菜单中选择“K Independent Samples”命令
“Several Independent Samples:Define Range”对话框
2. SPSS中实现过程
研究问题 对19只小鼠中的9只接种第一种伤寒杆菌,其 余接种第二种伤寒杆菌,接种后的存活天数见 表,判定两种伤寒杆菌的存活天数是否不同。
两总体分布位置相同
两总体分布位置不同
2. SPSS中实现过程
3. 结果
不能认为两总体分布 位置不同,不能认为 接种两种伤寒杆菌的 存活天数不同。
各总体分布位置相同
各总体分布位置不全同
2. SPSS中实现过程
在菜单中选择“K Independent Samples”命令
“Several Independent Samples:Define Range”对话框
3.结果
三个总体分布位置不 全同,三种药物杀灭 钉螺的效果有差别。
三. 两配对样本非参数检验(配对秩和)
post_2 70.00 71.00 75.00 68.00 74.00 70.00 63.00 70.00 65.00 70.00 70.00
post_3 69.00 70.00 75.00 70.00 70.00 69.00 61.00 70.00 65.00 60.00 69.00
实现步骤
(Wilcoxon Signed Rank Test)
非参数检验
➢ 编秩:数据相等则取平均秩,
➢ 求秩和
➢ 计算检验统计量H值
H 12 N(N 1)
Ri2 3( N 1) ni
出生体重(kg)xij ABCD
相应秩次 Rij A BCD
2.7 2.9 3.3 3.5
3
4
7 11
2.4 3.2 3.6 3.6
2 5.5 12.5 12.5
2.2 3.2 3.4 3.7
χ 2 12
R
2 i
3(N1)
N(N1) ni
χ2
12 14(14 1)
152
4
152 3
37.52 4
37.52 3
3(14
1)
χ 2 9.375
χ
2 c
1
χ2
(t
3 j
t
j
)
n3 n
1
(23
9.375 2) (33 3) (23
143 14
2)
9.50
四、随机区组设计资料的秩和检验 (Friedman test)
正态近似法
如果n1或n2-n1超出附表的范围,可按下式 计算u值:
u | T n1(N 1) / 2 | 0.5 n1n2 (N 1) / 12
在相同秩次较多时,应用下式进行校正:
uC u / C
C 1
(t
3 j
t
j
)
/(N
3
N)
tj为第j组相同秩次的个数
频数表资料(或等级资料)两样本资料比较
xi (2) 86 71 77 68 91 72 77 91 70 71 88 87
12 对双胞胎兄弟心理测试结果
后出生者得分 差 值
生物统计学:非参数检验
{ n+,n-}= n+=2 。
3、统计推断 当n=15时, 查附表11 得 临 界 值K0.05(15)=3 , K0.01(15) = 2 , 因 为 K = 2 = K0.01(15),P≤0.01,表明噪数与总体中位数比较的符号检验
1、建立假设 HO:样本所在的总体中位数=已知总体中 位数; HA :样本所在的总体中位数≠已知总体 中位数。 (若将备择假设 HA 中的“≠”改为“<” 或“>”,则进行一尾检验)
依赖于特定分布类型, 比较的是参数
优点:方法简便、易学易用,易于推广使用、应用范围广;可 用于参数检验难以处理的资料(如等级资料,或含数值 “>50mg”等)。 缺点:方法比较粗糙,对于符合参数检验条件者,采用非参数 检验会损失部分信息,其检验效能低;样本含量较大时,两者 结论常相同。
第一节 符号检验
非参数检验的弱点 可能会浪费一些信息 特别当数据可以使用参数模型的时候 大样本手算相对麻烦 一些表不易得到
参数检验 (parametric test)
非参数检验 (nonparametric test)
已知总体分布类型,对 未知参数进行统计推断
对总体的分布类型不作严 格要求 不受分布类型的影响, 比较的是总体分布位置
124.3 147.9 -15.7 7.9 +
1、提出无效假设与备择假设
HO :该地成年公黄牛胸围的平均数=140厘米, HA :该地成年公黄牛胸围的平均数≠140厘米。
2、计算差值、确定符号及其个数 样本各观测值与总体 平均数的差值及其符号列于表 11-2 ,并由此得 n+=6 ,n-=4 ,
非参数统计的名字中“非参数”意味着其方法不 涉及描述总体分布的有关参数;
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
11 10 3 0 24
16 28 19 5
1-16 17-44 45-63 64-68
8.5 30.5 54.0 66
第三节 多组独立样本的秩和检验(Kruskal-Wallis 法)
适用条件: 不满参数检验的应用条件的完全随机设计的 多个样本比较 多个等级资料比较
H检验的基本思想:
在H0成立的条件下,检验统计量
u T n n 1 / 4 0.5 n(n 1)(2n 1) / 24
当相同秩次较多时u值需进行校正。
u T n n 1 / 4 0.5
3 ( t n(n 1)(2n 1) i ti ) 24 48
例18-2
在缺氧条件下,观察5只猫与14 只
炎病人痰液嗜酸性粒细胞数有无显著差别?
嗜酸性 粒细胞数 健康
(1) (2)
两组人痰嗜酸性粒细胞的秩和计算 频数 秩次范围 平均秩次 病人 总
(3) (4) (5) (6)
秩和 93.5 305 162 0 T-=560.5
( 7 )= (3 )×(5 )
+ ++ +++ 合计
5 18 16 5 44
1、明显偏态分布的计量资料
2、方差不齐
3、有不确定数值资料
4、等级资料
一般步骤 ⒈ 建立假设; H0:差值的总体中位数为0; H1:差值的总体中位数不为0; α =0.05。 ⒉计算统计量 ⑴ 算出各对值的代数差; ⑵ 根据差值的绝对值大小编秩; ⑶ 将秩次冠以正负号,计算正、负秩和(T+,T-); ⑷ 用不为“0”的对子数n及取绝对值小的秩和作为统计 量T ⒊查表及结论 查检验界值表得到P值作出判断。
出现组合(21:57)的双侧尾部概率:P=2/37=0.054. 出现组合(21:57)的单侧尾部概率:P=1/37=0.027.
内容提要: 配对样本比较的Wilcoxon符号秩和检验
成组设计两样本比较的Wilcoxon秩和检验
成组设计多个样本比较的Kruskal-Wallis 秩和检验
Wilcoxon秩和检验可用于: 计量资料的两样本比较 等级资料的两样本比较 适用条件:
假设检验步骤
1.建立假设,确定检验水准 H0:多个总体分布相同。 H1:多个总体分布不全相同。 2. 编秩:多组数据从小到大混合编秩。注 意:遇不同组相同数据,取平均秩次。 3.求各组秩和:将各组秩次相加,即Ri,i 表示组号。 4.计算检验统计量: 2 Ri 12 H ( ) 3( N 1) N N 1 ni
u T n1 ( N 1) / 2 0.5 n1 n 2 ( N 1) / 12
当相同秩次较多时,应采用校正公式:
uc u c
3 c 1 (t 3 t ) /( N N) j j
N n1 n 2
例
44 例健康人与24例慢性气管炎病人痰液嗜酸性粒
细胞数的测量值(×106/L),问健康人与慢性气管
第九章
非参数检验
检验方法的选择及应用条件
t 检 验: u 检 验: 方差分析:
参数统计(parameter statistics ):
假定随机样本所来自已知的参数分布(如 正态分布),在这种假设前提下,对其总体参 数进行估计或假设检验,称为参统计。
条件不满足时——采用非参数统计的方法。
非参数检验优缺点:
优点:
不受总体分布的限制,适用范围广 对数据要求不严 方法简便、易于理解和掌握
缺点:
损失信息、检验效能低,二类错误的概率增 大。
符合条件 不符合条件
首选参数检验
非参数检验
参数检验与非参数检验比较
参数检验 要求资料服从 参数分布(如 正态分布) 非参检验 1. 对资料没有特殊要求,总体为偏 态、总体分布未知的计量资料 (尤其在n<30的情况) 2. 等级资料 3. 有过大或过小值的数据,或数据 的某一端没有具体值 4. 总体方差不齐 检验效率低,容易犯第二类错误, 原因信息丧失或信息利用不足。
兔的生存时间(min),结果见表18-2,试推
断猫和兔在缺氧条件下生存时间的差异有无
统计学意义。
第二节 两独立样本比较的秩和检验
基本思想:
如果H0成立,在两样本来自分布相同的总体,两 样本的平均秩次应相等或很接近,与总的平均秩次
(N+1)/2相差较小。含量为n1样本的秩和T1应在
n1(N+1)/2的左右变化。
实验组 10 12 15 17 23 90以上 对照组 2 3 6 7 10 11
秩和检验的基本原理:
对12名受试对象的测定值进行排秩序并给秩序号,其和是多少? 1,2,3,4,5,6,7,8,9,10,11,12 秩和为:12☓(12+1)/2=156/2=78, 公式:n(n+1)/2. 将这12名受试对象分为两组,但统一按取值大小排秩序,如果两组在 秩序上无差别,每组的秩次和应各为多少? 应各得78/2=39。 最极端的秩和应为多少?21-57 介于21与57之间的组合数有多少?(57-21)+1=37种组合
21 57 40 38 22 23 56 55 41 42 37 36 24 25 26 27 28 54 53 52 51 50 43 44 45 46 47 35 34 33 32 31 29 30 49 48 48 49 30 29 31 47 50 28 32 33 34 46 45 44 51 52 53 27 26 25 35 43 54 24 36 42 55 23 37 41 56 22 38 39 40 39 57 21
若T值偏离此值太远,H0发生的可能性就很小。
若偏离出给定的α值所确定的范围时,即P≤α,拒 绝 H0
假设检验步骤
1. 建立建设:
H0:两总体分布相同,
H1:两总体分布不同; =0.05 ⒉ 计算统计量 将两个样本由小到大的顺序统一编次, 数值相等时取平均秩次,求出两组秩和, 以样本含量较小组的秩和作为检验统计量T, T1=78.5
⒊ 查表及结论 n=n2-n1,查T界值表, T0.05/2界值为28-72, T0.01/2界值为22-78, 本例,T=78.5, 所以 P<0.01,拒绝H0,接受H1,差异有统 计学意义,可认为两组的平均生存时间不同。
如果样本含量较大,表中查不到时,可用正态近似法 作检验,公式为:
假设检验步骤
1、建立假设检验,确定检验水准 H0:三组人群的血浆总皮质醇含量的总体分布相同。 H1:三组人群的血浆总皮质醇含量的总体分布位置 不全相同。 α =0.05 2、计算统计量
Ti 2 12 H 3( N 1) N ( N 1) ni 96.52 117.52 2512 12 3 30 1 18.12 30 30 1 5 5 5
Ti 12 H N ( N 1) ni
2
3( N 1)
H反映实际获得的k个独立样本的秩和平均值和理论值偏离的
程度。各样本的秩和平均值和理论值的差距越大,H值就越大, P值就越小。当P≤α时,拒绝H0。随着N的增大和或k的增多,H 近似ν=(k-1)的χ2分布。在k及样本例数较小时,直接计算检验 统计量H,查H界值表确定P值。当N较大或/和k较多时,利用近 似χ2分布确定P值。
3、查表及结论 查2界值表, 20.05,2=5.99,
20.005,2=10.60, P<0.005,
按α =0.05水准,拒绝 H0,接受H1,故可认为三 组人群的血浆总皮质醇含量含量有差别。
例18.4 某医师用药物治疗慢性、亚急性、急性 颈动脉炎眩晕患者的疗效,数据资料见表18-4, 试分析该药物对三种类型颈动脉炎眩晕患者的疗 效有无差别?
假设检验步骤
1.建立假设检验
H0 : 三种类型颈动脉炎眩晕患者的疗效总体分布相同。 H1 : 三种类型颈动脉炎眩晕患者的疗效总体分布位置
不全相同 α=0.05 2.计算统计量
Ti 2 12 H 3( N 1) N ( N 1) ni 156667.52 199982 34259.52 12 3 649 1 649 649 1 429 66 154 66.6792 C 1
1、当5≤n≤25时 可查附表18-1的 T界值表,T 愈小,P愈小。 当T恰为附表中的界值时,P值一般都小于 表中对应的概率值。
n=11
T+= 24.5,T- = 41.5
双侧0.01
双侧0.02
双侧0.05
双侧0.10
5 7 10 13 53 56 59 61
2、当n>25时 可用正态近似法计算u值进行u检验,
3 t j tj 3 3 3 242 242 77 77
N N 0.902665
1
6493 649
H c H / C 73.87
3.查表及结论 现k=3,ν=k-1=3-1=2 查界值表20.01(2)=9.21, 2>20.01(2); P<0.01, 按 α = 0.05 水准,拒绝 H0 ,接受 H1 ,三组类型的眩 晕患者的疗效的差别有统计学意义,故可认为三组类 型的眩晕患者的疗效有差别。
不依赖总体的分布类型,不受参数的影响,
只对总体分布间进行比较的一种统计分析方法。 又称任意分布检验(distribution-free test)。
非参数检验适用范围:
① 总体分布形式未知或分布类型不明; ② 偏态分布的资料(非正态分布的资料): ③ 等级资料:不能精确测定,只能以严重程度、优劣 等级、次序先后等表示 ——单向有序行×列表资料 ④ 不满足参数检验条件的资料:各组方差明显不齐。 ⑤ 数据一端或两端是不确定数值, (必选) 如“>50kg”等。