第9讲 非参数检验
合集下载
非参数检验课件
13.71
5
19.61
24.37
4.76
6
14.50
92.75
78.25
7
49.63
121.57
71.94
8
44.56
89.76
45.20
编秩次,求秩和 去掉d=0的对子,总的对子数也要相应减去; 用绝对值︱d︳编秩次,如果出现绝对值相等时(ties) ,则将它们的平均秩次值作为他们的秩次;
第二节 单样本资料的符号秩和检验
• 目的:推断样本中位数与已知总体中位数 (常为标准值或大量观察的稳定值)有无 差别,常用于不满足单样本t检验应用条 件的资料;其检验假设是M=M0.
• 例10-2 已知某地正常人尿氟含量的中位 数为2.15mmol/L.今在该地某厂随机抽取 12名工人,测得尿氟含量,结果见表2。 问该工厂的尿氟含量是否高于当地正常人 ?
参数检验方法
• t检验 两独立样本t检验要求:正态、方差相等、个体独立 配对t检验要求:差值正态、个体独立
• 方差分析 完全随机设计方差分析要求:正态、方差相等、个体独 立
参数检验方法
• 两组性别结构是否相同?
• 两组某种不良反应的发生率是否相同?
• 多组发生率是否相同? • 多组构成是否相同?
定性无序分 类资料
未解决的问题
• 疗效用痊愈、显效、有效、无效四级分类法进行 评价时,两组或多组如何比较?
• 对两组患者空腹胰岛素水平进行比较时,有的病 例测量结果为Ins<2.0 或Ins>300,如何处理?
未解决的问题
• 对应于多分类变量(有序) • 非正态分布 • 不完整数据:如,Ins<2.0 或Ins>300 • 正态分布但方差不相等时
非参数检验方法.
• 连续性资料——正态分布 • 计 数 资 料——二项分布、POISSON分布等
统 计 量:有明确的理论依据(t分布、u分布) 有严格的适用条件,如:
•正态分布 •总体方差齐 •数据间相互独立 Normal Equal Variance Independent
条件不满足时——采用非参数统计的方法。
接受H1
2018/9/24
17
陈学芬
(3)确定P值并作出推断结论: 本例: n=9 , T+=15.5, T+ (5-40) T0.05(9)=5-40
所以 P>0.05,按α=0.05的检验水准,不拒绝H0 ; 尚不能认为治疗前后患者的白细胞总数差别有统 计学意义。
2018/9/24
18
陈学芬
第九章 非参数检验方法
(nonparametric test)
陈学芬
检验方法的选择及应用条件
t 检 验:
u 检 验:
方差分析:
2018/9/24
2Leabharlann 陈学芬参数检验:若样本所来自的总体分布已知(如 正态分布),对其总体参数进行假设检验,则 称为参数检验。
2018/9/24
3
陈学芬
参数检验的特点:
分析目的:对总体参数(μ π)进行估计或检验。 分 布:要求总体分布已知,如:
取较小的T作为检验的统计量T 本例取T=T+=15.5。
2018/9/24
16
陈学芬
(3)确定P值并作出推断结论: 根据T值( T+=15.5 或 T-=29.5 )查T界值表 ( P258附表8 )确定P值 原 则:如果T位于检验界值区间内,P>,不拒 绝H0;如果T位于检验界值区间外,P,拒绝H0,
统 计 量:有明确的理论依据(t分布、u分布) 有严格的适用条件,如:
•正态分布 •总体方差齐 •数据间相互独立 Normal Equal Variance Independent
条件不满足时——采用非参数统计的方法。
接受H1
2018/9/24
17
陈学芬
(3)确定P值并作出推断结论: 本例: n=9 , T+=15.5, T+ (5-40) T0.05(9)=5-40
所以 P>0.05,按α=0.05的检验水准,不拒绝H0 ; 尚不能认为治疗前后患者的白细胞总数差别有统 计学意义。
2018/9/24
18
陈学芬
第九章 非参数检验方法
(nonparametric test)
陈学芬
检验方法的选择及应用条件
t 检 验:
u 检 验:
方差分析:
2018/9/24
2Leabharlann 陈学芬参数检验:若样本所来自的总体分布已知(如 正态分布),对其总体参数进行假设检验,则 称为参数检验。
2018/9/24
3
陈学芬
参数检验的特点:
分析目的:对总体参数(μ π)进行估计或检验。 分 布:要求总体分布已知,如:
取较小的T作为检验的统计量T 本例取T=T+=15.5。
2018/9/24
16
陈学芬
(3)确定P值并作出推断结论: 根据T值( T+=15.5 或 T-=29.5 )查T界值表 ( P258附表8 )确定P值 原 则:如果T位于检验界值区间内,P>,不拒 绝H0;如果T位于检验界值区间外,P,拒绝H0,
第九讲 秩转换的非参数检验
T ③任取正秩和或负秩和为 ,本例取
T 11.5
。
50 确定 P 值,作出推断结论:当n 时,查 T 界值表(附表 9)。
查表时,自左侧找到 n,将检验统计量T 值与相邻左侧一栏的界值相 比: 若 T 值在上、下界值范围内,其 P 值大于表上方相应概率水平;
P 若 T 值恰好等于界值,其 值等于(一般是近似等于)相应概率水平;
d 差 值
(4)=(3)-(2) 20 10 48 2 -2 0 15 13 31 6 -36 5 ─
正 秩 (5) 8 5 11 1.5
负 秩 (6)
1.5 7 6 9 4 10 3 54.5 11.5
第一节 配对样本比较的Wilcoxon符号秩检验
• 血清谷-丙转氨酶不知是否符合正态分布, 本例为小样本资料,其配对差值经正态 性检验,得,虽可用配对检验,为保守 起见,现用Wilcoxon符号秩检验。
t3 t2 中有 2 个 1.5,5 个 8,3 个 14,则t1 2 , 5 , 3 , (t j t j ) (2 2) (53 5) (33 3) 150 。
第一节 配对样本比较的Wilcoxon符号秩检验
符号秩检验若用于配对的等级资料, 则先把等级从弱到强转换成 秩(1,2,3,…) ;然后求各对秩的差值,省略所有差值为 0 的对子数, 令余下的有效对子数为 ;最后按 个差值编正秩和负秩,求正秩和 或负秩和。但对于等级资料,相同秩多,小样本的检验结果会存在偏 性,最好用大样本。
第一节 配对样本比较的Wilcoxon符号秩检验
据表 8-2 第(3) (4)栏,取T 1.5 。 、 有效差值个数n 11 。 n 11 和T 1.5 查附表 9, 据 得单侧P 0.005 ,
T 11.5
。
50 确定 P 值,作出推断结论:当n 时,查 T 界值表(附表 9)。
查表时,自左侧找到 n,将检验统计量T 值与相邻左侧一栏的界值相 比: 若 T 值在上、下界值范围内,其 P 值大于表上方相应概率水平;
P 若 T 值恰好等于界值,其 值等于(一般是近似等于)相应概率水平;
d 差 值
(4)=(3)-(2) 20 10 48 2 -2 0 15 13 31 6 -36 5 ─
正 秩 (5) 8 5 11 1.5
负 秩 (6)
1.5 7 6 9 4 10 3 54.5 11.5
第一节 配对样本比较的Wilcoxon符号秩检验
• 血清谷-丙转氨酶不知是否符合正态分布, 本例为小样本资料,其配对差值经正态 性检验,得,虽可用配对检验,为保守 起见,现用Wilcoxon符号秩检验。
t3 t2 中有 2 个 1.5,5 个 8,3 个 14,则t1 2 , 5 , 3 , (t j t j ) (2 2) (53 5) (33 3) 150 。
第一节 配对样本比较的Wilcoxon符号秩检验
符号秩检验若用于配对的等级资料, 则先把等级从弱到强转换成 秩(1,2,3,…) ;然后求各对秩的差值,省略所有差值为 0 的对子数, 令余下的有效对子数为 ;最后按 个差值编正秩和负秩,求正秩和 或负秩和。但对于等级资料,相同秩多,小样本的检验结果会存在偏 性,最好用大样本。
第一节 配对样本比较的Wilcoxon符号秩检验
据表 8-2 第(3) (4)栏,取T 1.5 。 、 有效差值个数n 11 。 n 11 和T 1.5 查附表 9, 据 得单侧P 0.005 ,
第九讲-2 非参数检验-差异显著性检验
单个样本的Wilcoxon符号秩和检验
• 单个样本中位数和总体中位数比较,目的 是推断样本所来自的总体中位数M与某个已 知的中位数M0是否有差别。
• 用样本各变量与M0的差值,即推断差值的 总体中位数和0是否有差别。
• 已知某地正常人尿氟含量的中位数为 45.30µmol/L,今在该地某厂随机抽取12名 工人,测得尿氟含量如表所示。
T界值表(配对比较的符号秩和检验用)
N
单侧:0.05 双侧:0.10
5 0--15
6 2--19
7 3--25
8 5--31
9 8--37
10 10--45
11 13--53
12 17--61
单侧:0.025 单侧:0.01 单侧:0.005 双侧:0.05 双侧:0.02 双侧:0.010
0--21
秩和检验概述
“秩”:按数据大小排定的次序号,又称秩次号。 编秩:将观察值按顺序由小到大排列,并用序号代替原始
变量值本身。 用秩次号代替原始数据后,所得某些秩次号之和,即按某
种顺序排列的序号之和,称为秩和,反映了一组数据在 分布上的范围位置。 基本思想: 基于秩次(通过编秩,用秩次代替原始数据信息来进行检 验)。 即检验各组的平均秩或秩和是否相等。如果经检验得各组 的平均秩和秩和不相等,则可以推论数据的分布不同。
非参数检验
• 许多调查或实验所得的科研数据,常常具有如下特点: (1)资料的总体分布类型未知或无法确定; (2)资料分布类型已知,但不符合正态分布; (3)某些变量可能无法精确测量如等级资料。 (4)一端或两端为不确定数值的资料 这时做统计分析就不能使用参数检验,而是要采用非参
数检验:即不考虑总体分布类型是否已知,不比较总 体参数,只比较总体分布的位置是否相同的统计方法。
第九章 非参数检验方法
胃癌患者,观察其生存 时间如表9-4所示,问两 组患者的生存时间是否 不同?
n1=10
T1=162
假设检验的要点
1. 2. 3. 4. 混合编秩、数据相等时取平均秩 分别求两组的秩和 以样本量较小组的秩和为T 查成组设计的T界值表、确定P值
1.建立检验假设: H0:两组患者生存时间的总体 分布相同 H1:两组患者生存时间的总体 分布不同 α=0.05 2.计算检验统计量T值 ⑴编秩 ⑵求秩和,确定统计量T 3.确定P值(T界值:91~159); 做出推断结论
n1=8
T1=26
n2=7
T2=134
n3=9
n4=8
T4=54.5
秩和检验的两两比较
1、扩展的t检验 2、Nemenyi法检验
习题
• P105~P107 第1、3、5、7题
T1 16.2,T2=9.86
n1=10
T1=162
• 正态近似法
①当n1≤10,n2n1≤10 ,查T界值表(两样本比较的秩和 检验用)确定P值;
②当n1>10或n2>20的大样本时,对T进行u转换,则可用 正态近似法:
| T n1 ( N 1) / 2 | 0.5 u n1n2 ( N 1) /12
1312312051211iitnnuttnnnnn?????????????????二等级资料的秩和检验表95两组人痰液嗜酸性粒细胞的秩和计算例数统一编秩嗜酸性粒细胞数健康人病人范围平均秩次例数较小组病人组的秩和51111685935181810101744174430530530503050?若选行列表资料的卡方检验只能推断两组样本疗效构成比的差别有无统计学意义损失疗效的等级信息应采用秩和检验可推断两组等级强度的差别有无统计学意义比较两组病情的疗效
第9讲 相关样本(两样本)非参数检验1:符号检验
符号检验临界值表
结论:接受原假设,认为没有显著 差异(??)。
为什么与前面分析结果矛盾? 前者是参数检验,后者是非参数检 验,方法不同。
表中数是S+和S- 中较小者的临界值,故是左边检验。 统计量=1,临界值是0,统计量大于临界值,接受原假设。
SPSS操作, 例:“改制与竞争力.sav”
同时选中, 拉到右边。
案例: 改制前后,某厂八个车间竞争性的比较:
假设总体是正态分布,问改革后,竞争性有无显著差异?若不是正态分布,又如 何? “无可奈何花落去,似曾相识燕归来”,似曾相识吗?
正态分布的解题思路
解题步骤:
• 1提出假设:
H0 : d 0; H1 : d 0
t d d S n
2 d
作业
• 用R软件对上例进行符号检验 • 答案
关键提示
• 到底是双边检验,还是左边检验、右边检 验,要深入分析题意。
案例2 一家日用化工企业拟采用两种去污配方生产新型去污剂,于是挑选了一 系列沾染污渍的物件进行各种测试,其中一项是对清除不同污渍所 需要的时间进行测试,记录如下表,问功效是否有显著差别?
结果:
P值>0.05,接受原假设,认为两种配方的功效没有显著差异。 如果查表,结果如何?
勾选“符号检 验”,去掉 “Wilcoxon检验”
P值>0.05,所以接受原假设, 认为改制前后的竞争力没有 显著差异,与前面手算查表 的结果相同。
符号检验的R软件操作(一)
• 若计算出了差的符号个数,可以用二项分布检验。 • binom.test(1,8,0.5) • 结果:
0.2727是正号的概率,即点估计值, 0.06-0.6097是区间估计值
提高篇
09 第九章 非参数检验
通过查阅正态分布表来把握观察的显著性水平, 进而做出否定或保留虚无假设的统计决断。
第三节 中位数检验
一、两个样本中位数差异的检验
二、多个样本中位数差异的检验
中位数检验法是通过对来自两个或多个独立总体的 两个或几个样本的中位数的研究,以判断这两个或 多个总体取值的平均状况是否存在显著性的差异。 其基本思想是假设这两个或多个总体具有相同的分 布律,那么它们的取值将具有相同的平均状态。 中位数检验法的具体做法是:先将几组数 据 X1 、 X 2 、… X k 合并成一个容量为 N n1 n2 nk 的样本,再找出这个样本的中位数 Md 。然后统计出 X1 中大于中位数的数据个数 a ,小于或等于中位数 的数据个数 b ;X 2 中大于中位数的数据个数 c ,小 于或等于中位数的数据个数 d ,…,即分别统计出 每个样本中大于和小于等于中位数的数据个数,再 进行“ r c ”表的 2 检验。
一、小样本的情况
当两个独立样本的容量都小于10,进行秩和检验的 步骤一般为: (1)编排秩次:将两列变量 X1 、X 2 共计 n1 n2 个数据 混合起来,由小到大编排秩次。最小的一个数据的 秩次为1,最大的一个数据的秩次为 n1 n2 。对若干 个数值相等的数据,则取它们相应的秩次的中位数。 (2)求秩和:累计容量较小的样本中的 n1 个数据的 秩次之和,并且记为 T 。 (3)把握显著性水平与统计决断:根据两个独立样本 的容量 n1 和 n2 ,以及显著性水平 ,查阅秩和检验 表。将实际求得的秩和 与表中相应的理论临界值 (下限 T1 和上限 T2 )做比较。如果由样本资料得到 T 的实际秩和 T T1 或 T T2 ,则可以在 显著性水平 上否定无差异的虚无假设;如果实际求得的秩和满 足: T1 T T2 ,则应保留虚无假设。
第9章 非参数检验
9.7多个独立样本比较秩和检验
1.多组计量资料的非参数检验
对于多组计量资料不服从正态性、方差齐性条件或 经转换后也不满足,则采用H检验法
例9-8研究白血病时,测定四组鼠脾DNA的含量,结 果如下表,分析各组DNA含量有无差别?(α=0.05)
正常脾
12.3
患自发性白血病的脾 10.8
患移植白血病的脾(甲组) 9.3
列联表(二维列联表按两个属性分类的表)分类: 1)双向无序表(检验法:Pearson卡方检验) 2)双向有序表(检验法:McNemar检验、Kappa检验) 3)单向有序表(等级资料,检验法:非参数检验)
Guiyang College of Traditional Chinese Medicine
例9-7《成都中医药大学学报》2004年第2期《益 心钦口服液治疗冠心病心率失常的疗效》一文, 调查数据如下表,判断其疗效与对照组是否相同? (α=0.05)
Guiyang College of Traditional Chinese Medicine
2.等级资料两样本比较秩和检验
医药学研究中的等级资料: 1)疗 效: 痊愈、显效、有效、无效、恶化 2)化验结果: - ++ +++ 3)体格发育: 下等、中下、中等、中上、上等 4)心功能分级:I、II、III… 5)营养水平: 差、一般、好
1959 30.5 1969 11.8
1960 24.5 1970 12.4
Guiyang College of Traditional Chinese Medicine
SPSS操作步骤
1)建立数据文件:变量名为x 2)Analyze→Nonparametric Tests→Runs,
非参数检验综合概述PPT(30张)
•
9、别再去抱怨身边人善变,多懂一些道理,明白一些事理,毕竟每个人都是越活越现实。
•
10、山有封顶,还有彼岸,慢慢长途,终有回转,余味苦涩,终有回甘。
•
11、人生就像是一个马尔可夫链,你的未来取决于你当下正在做的事,而无关于过去做完的事。
•
12、女人,要么有美貌,要么有智慧,如果两者你都不占绝对优势,那你就选择善良。
多个独立样本的非参数检验
例3 14名新生儿出生体重按其母亲的吸烟习惯分组(A组: 每日吸烟多于20支;B组:每日吸烟少于20支;C组:过去 吸烟而现已戒烟;D组:从不吸烟),具体如下。试问四个 吸烟组出生体重分布是否相同?数据见npc.sav:
A组: 2.7 2.4 2.2 3.4 B组: 2.9 3.2 3.2 C组: 3.3 3.6 3.4 3.4 D组: 3.5 3.6 3.7
两独立样本的非参数检验 (2) 检验统计量
分析结果
给 出 Mann-Whitney U 、 Wilcoxon W 统 计 量 和 Z 值 , 近 似 值 概 率 (Asymp.Sig)和精确概率值(Exact.sig)均小于0.05,结论一致,表明 猫、兔在缺氧条件下的生存时间的差异具有统计学意义,由平均秩次猫 (15.7)、兔(7.96)来看,可以认为缺氧条件下猫的生存时间长于兔。
•
3、命运给你一个比别人低的起点是想告诉你,让你用你的一生去奋斗出一个绝地反击的故事,所以有什么理由不努力!
•
4、心中没有过分的贪求,自然苦就少。口里不说多余的话,自然祸就少。腹内的食物能减少,自然病就少。思绪中没有过分欲,自然忧就少。大悲是无泪的,同样大悟无言。缘来尽量要惜,缘尽就放。人生本来就空,对人家笑笑,对自己笑笑,笑着看天下,看日出日落,花谢花开,岂不自在,哪里来的尘埃!
非参数检验
➢ 编秩:数据相等则取平均秩,
➢ 求秩和
➢ 计算检验统计量H值
H 12 N(N 1)
Ri2 3( N 1) ni
出生体重(kg)xij ABCD
相应秩次 Rij A BCD
2.7 2.9 3.3 3.5
3
4
7 11
2.4 3.2 3.6 3.6
2 5.5 12.5 12.5
2.2 3.2 3.4 3.7
χ 2 12
R
2 i
3(N1)
N(N1) ni
χ2
12 14(14 1)
152
4
152 3
37.52 4
37.52 3
3(14
1)
χ 2 9.375
χ
2 c
1
χ2
(t
3 j
t
j
)
n3 n
1
(23
9.375 2) (33 3) (23
143 14
2)
9.50
四、随机区组设计资料的秩和检验 (Friedman test)
正态近似法
如果n1或n2-n1超出附表的范围,可按下式 计算u值:
u | T n1(N 1) / 2 | 0.5 n1n2 (N 1) / 12
在相同秩次较多时,应用下式进行校正:
uC u / C
C 1
(t
3 j
t
j
)
/(N
3
N)
tj为第j组相同秩次的个数
频数表资料(或等级资料)两样本资料比较
xi (2) 86 71 77 68 91 72 77 91 70 71 88 87
12 对双胞胎兄弟心理测试结果
后出生者得分 差 值
第9章 非参数检验
(4)求秩和并确定检验统计量:
分别求出正负秩次之和,正秩和以T+ 表示,负秩和的绝对值以T-表示。T+及T之和等于n(n+1)/2。此式可验证T+和T-的 计算是否正确。如本例T+=19.5,T-=25.5, 其和为45,n=9(因舍去三对差值为0的数 据),9(9+1)/2=45。取T+和T-中较小者 作为检验统计量T,本例取T=19.5。
多个样本间两两比较的秩和 检验(Nemenyi法)
样本例数相等的两两比较秩 和检验 各样本例数不同或不全相同 的两两比较的秩和检验
非参数检验又称为任意分布检验 (distribution-free test),它不考 虑研究对象总体分布具体形式,也不对总 体参数进行统计推断,而是通过检验样本 所代表的总体分布形式是否一致来得出统 计结论。
4.确定P值和作出推断结论 本例样本含量较多,超出附表6的 范围,需用下式求u值来判断结论。又 因频数表资料相同秩次数较多(超过总 样本数25%),故需用校正公式。
u
T n1 ( N 1) / 2 0.5 n1n 2 ( N 1) 12 8780.5 82( 208 1) / 2 0.5
当n1>20或(n2-n1)>10时,附表6中 查不到P值,则可采用正态近似法求u值来 确定P值,其公式如下:
T n1 ( N 1) / 2 0.5 n1n 2 ( N n2 分别为两样本含量,N=n1+n2,0.5这连 续性校正数。上式为无相同秩次时使用 或作为相同秩次较少时的近似值。当两 样本相同秩次较多(超过总样本数的 25%)时,应按下式进行校正,u经校正 后可略增大,P值则相应减小。
uc u
非参数检验方法 PPT课件
对于符合参数统计分析条件者,采用 非参数统计分析,其检验效能较低
秩和检验
秩和检验(rank sum test):一类常用 的非参数统计分析方法;基于数据的秩次与 秩次之和
两独立样本差别的秩和检验 配对设计资料的秩检验 完全随机设计多组差别的秩和检验
两独立样本比较的秩和检验 Wilcoxon rank sum test
n1=8 T1=216 n2=7
21 26 24 27
T2=134
11.7 11.7 12.0 12.3 12.4 13.6
n3=9
14 15 16 16 20 25
T3=123.5
10.5 10.5 10.5 10.9 11.0 11.5
n4=8
6 7 9 10 12
T4=54.5
假设检验步骤
建立假设检验 • H0:四组鼠脾DNA含量的总体分布相同。 • H1:四组鼠脾DNA含量的总体分布位置不全相
第九章
非参数检验方法
参数统计
(parametric statistics)
已知总体分布类型,对 未知参数(μ、π)进 行统计推断
依赖于特定分布类 型,比较的是参数
非参数统计
(nonparametric statistics)
对总体的分布类 型不作任何要求
不受总体参数的影响, 比较分布或分布位置
适用范围广;可用于任何类型 资料(等级资料,或“>50mg” )
对于计量数据,如果资料方差相等,且服从 正态分布,就可以用 t 检验比较两样本均数。
如果此假定不成立或不能确定是否成立,就 应采用秩和时间(月)
无淋巴细胞转移
有淋巴细胞转移
时间
秩次
时间
秩次
非参数检验ppt课件
非参数检验的优点与缺点
优点: ①适用范围广,不受总体分布的限制; ②对数据的要求不严,如某些指标难以准确测定,只
能以严重程度、优劣等级、先后次序等表示的资料 也可应用; ③方法简便,易于理解和掌握。 缺点: 如果对符合参数检验的资料应用非参数检验,因不能 充分利用资料提供的信息,会使检验效能低于参数 检验;若要使检验效能相同往往需要更大的样本含 量。
4
常见心律失常心电图诊断的误区诺如 病毒感 染的防 控知识 介绍责 任那些 事浅谈 用人单 位承担 的社会 保险法 律责任 和案例 分析现 代农业 示范工 程设施 红地球 葡萄栽 培培训 材料
本章主要内容
• §1 Wilcoxon 符号秩和检验 • §2 Wilcoxon 两样本比较法 • §3 完全随机设计多样本比较的
T++T- = n(n+1)/2,n为不等于0的对子数。 3.确定P值,做出推断结论
当n≤25时,以T值查“附表10 T界值表”(配对设计
用),若检验统计量T值在T界值范围内,则P值大于 相应的概率水平;若T值在T界值范围外或等于界值, 则P值小于或等于相应的概率水平。
9
常见心律失常心电图诊断的误区诺如 病毒感 染的防 控知识 介绍责 任那些 事浅谈 用人单 位承担 的社会 保险法 律责任 和案例 分析现 代农业 示范工 程设施 红地球 葡萄栽 培培训 材料
2
常见心律失常心电图诊断的误区诺如 病毒感 染的防 控知识 介绍责 任那些 事浅谈 用人单 位承担 的社会 保险法 律责任 和案例 分析现 代农业 示范工 程设施 红地球 葡萄栽 培培训 材料
非参数检验(nonparametric test)
• 对总体分布不作严格假定,又称任意分布检验
优点: ①适用范围广,不受总体分布的限制; ②对数据的要求不严,如某些指标难以准确测定,只
能以严重程度、优劣等级、先后次序等表示的资料 也可应用; ③方法简便,易于理解和掌握。 缺点: 如果对符合参数检验的资料应用非参数检验,因不能 充分利用资料提供的信息,会使检验效能低于参数 检验;若要使检验效能相同往往需要更大的样本含 量。
4
常见心律失常心电图诊断的误区诺如 病毒感 染的防 控知识 介绍责 任那些 事浅谈 用人单 位承担 的社会 保险法 律责任 和案例 分析现 代农业 示范工 程设施 红地球 葡萄栽 培培训 材料
本章主要内容
• §1 Wilcoxon 符号秩和检验 • §2 Wilcoxon 两样本比较法 • §3 完全随机设计多样本比较的
T++T- = n(n+1)/2,n为不等于0的对子数。 3.确定P值,做出推断结论
当n≤25时,以T值查“附表10 T界值表”(配对设计
用),若检验统计量T值在T界值范围内,则P值大于 相应的概率水平;若T值在T界值范围外或等于界值, 则P值小于或等于相应的概率水平。
9
常见心律失常心电图诊断的误区诺如 病毒感 染的防 控知识 介绍责 任那些 事浅谈 用人单 位承担 的社会 保险法 律责任 和案例 分析现 代农业 示范工 程设施 红地球 葡萄栽 培培训 材料
2
常见心律失常心电图诊断的误区诺如 病毒感 染的防 控知识 介绍责 任那些 事浅谈 用人单 位承担 的社会 保险法 律责任 和案例 分析现 代农业 示范工 程设施 红地球 葡萄栽 培培训 材料
非参数检验(nonparametric test)
• 对总体分布不作严格假定,又称任意分布检验
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Exact tests:
Options:
结果解读:
单样本K-S检验结果表
观测量总数 正态分布参数 均值与标准差 最大极差的绝对渐近的双尾显著性 概率为0.295>0.05
说明:不拒绝原假设,表示健康成年男性血糖浓度可能 服从正态分布。
第三节 分布位置的检验
3、引例(练习一)
例1 均匀分布的一致性检验。调查某美发店上半年各 月顾客数量,检验各月顾客数是否服从均匀分布。 (数据文件:“某美发店上半年各月顾客数量.sav”)
月份
1
2
3
4
5
6
顾客数量 (百人)
27
18
15
24
36
30
表1 某美发店上半年各月顾客数量
1、将变量num(顾客数)定义为权变量
【Data】\【Weight Case】
1、游程检验的数据要求
游程检验过程要求检验变量必须是数值型的。检验不需要有关 分布类型的假设,可以使用连续型分布的样本。
2、引例(练习三)
例5 样本随机性检验。某品牌消毒液质检部要求每瓶消 毒液的平均容积为500ml,现从流水线上的某台装瓶机 上随机抽取20瓶,测得其容量如下表所示,试检查这台 机器装多装少是否随机?(数据文件:“某品牌消毒液 每瓶容量抽查.sav”)
本章将介绍8类常用的非参数检验方法:
1、分布类型检验方法(单样本非参数检验) (1)总体分布的卡方(Chi-square)检验 (2)二项分布(Binomial)检验 (3)单样本变量值随机性检验(Runs Test) (4)单样本K-S(Kolmogorov-Smirnov)检验 2、分布位置检验方法 (5)两独立样本非参数检验 (6)多独立样本非参数检验 (7)两相关样本非参数检验 (8)多相关样本非参数检验
第13章
非参数检验
第10章 非参数检验
第一节 非参数检验相关原理简介
一、非参数检验的概念
前面已经讨论的许多统计分析方法对总体有特殊的 要求,如T检验要求总体符合正态分布,F检验要求误差 呈正态分布且各组方差齐性等等。这些方法常用来估计 或检验总体参数,统称为参数检验。
但许多调查或实验所得的科研数据,其总体 分布未知或无法确定。因为有的数据不是来自所 假定分布的总体,或者数据根本不是来自一个总 体,还有可能数据因为某种原因被严重污染,这 样在假定分布的情况下进行推断的做法就有可能 产生错误的结论。此时人们希望检验对一个总体 分布形状不必作限制。
1、二项分布检验的数据要求
二项分布检验过程要求检验变量是数值型的二元变量。若不是 二元变量,可以使【Transform】菜单下的【Recode】过程将其数 据分成两组,或者通过设置断点将数据分成两组。
2、引例(练习二)
例4 二项分布的一致性检验。下表中是16名学生在一项 体能测试上的成绩,以60分作为及格线,学校要求及格 率达到90%,问根据这批抽样数据,体能及格率是否达 到了90%?(数据文件:“体能测试成绩抽样.sav”)
例2 泊松分布的一致性检验。调查某农作物根部蚜虫 的分布情况,检验蚜虫在某农作物根部分布是否服从 泊松分布。(数据文件:“某农作物根部蚜虫的分布 情况.sav”)
每株虫数x 实际株数 ≥5 1
0 10
1 24
2 10
3 4
4 1
表2 某农作物根部蚜虫分布情况表
假设检验问题:
1、将变量num(实际株数)定义为权变量
1、单个样本的K-S检验的统计原理
以K-S正态性检验为例介绍它的统计原理
假设检验问题:
2、单个样本的K-S检验的数据要求
K-S检验过程要求检验变量为区间或者比例测度 为数值型变量。
3、引例(练习四)
例7 K-S正态性检验。35位健康成年男性在未进食前的 血糖浓度如下表所示,试检测这组数据是否服从正态分 布?(数据文件:“血糖浓度抽查.sav”)
36 52 61
36 53 61
37 54 61
38 54 62
40 56 62
42 57 63
43 57 63
43 57 65
44 58 66
45 58 68
48 58 68
48 58 70
50 58 73
50 59 73
51 60 75
表3 某地区高二学生体重抽查结果
1、将上述体重分为5组
【Transform】\【Recode into Different Variable】
【Analyze】\【Nonparametric Tests】\【Chi-Square】 要求:选入检验变量,输入期望频数值
结果解读:
1、每个区间的频数表
2、卡方检验表
二、二项分布检验——【Binomial】过程
二项分布检验过程是用对二元变量的两个分类的观测频 数与某个具有确定的概率参数的二项分布的期望频数进行比 较的假设检验问题。
Options: 要求:输出描述性统计量和四分位数
结果解读:
1、描述统计量表
说明:体能测试的平均成绩为71.88。
2、二项分布概率检验结果表
说明:不拒绝原假设,即该批学生体能 及格率可能达到90%
三、游程检验——【Runs】过程
单样本变量值随机性检验 游程检验过程是利用游程的总个数获得统计推断结论的方法。 先引入以下概念:在一个二元序列中,一个由0和1连续构成的串 称为一个游程,一个游程中数据的个数称为游程的长度。 比如序列:1110000111100100000,在这个序列中,111、 0000、1111、00、1、00000都是游程,其中第一个游程111的长 度为3。 假设用U表示序列中游程的总数,用V表示最大游程长度。游 程检验就是借助于U值和V值而建立起来的,用于检验两个总体是 否相同,以及检验一个样本随机性的非参数检验法。
2、用卡方检验来检验顾客人数是否服从均匀分布
【Analyze】\【Nonparametric Tests】\【Chi-Square】
要求:选入检验变量
Extract Tests:
Options: 要求:输出描述性统计量和四分位数
结果解读:
1、描述统计量表
2、每个月份的顾客频数表
3、卡方检验表
这种不是针对总体参数,而是针对总体的某些一般 性假设(如总体分布)的统计分析方法称非参数检验 (Nonparametric Tests)。
二、非参数检验的优缺点
优点:
(1)对总体的假定相对较少,由广泛适用性,结果有 较好的稳定性。如果模型通不过检验,原因一是样本 量不足(追加样本代价较高),原因二是模型假定存 在问题(可以改变方法)。 (2)可以处理所有类型的数据,主要针对定量数据。
检验样本所在总体的分布位置或者形状是否相同
一、两个独立样本分布位置检验
——【2 Independent Samples】过程
【Analyze】\【Nonparametric Tests】\【Chi-Square】 要求:选入检验变量,输入期望频数值
Options: 要求:输出描述性统计量和四分位数
结果解读:
1、描述统计量表
2、每株虫数频数表
3、卡方检验表
例3 正态分布的一致性检验。从某地区高中二年级 学生中随机抽取45名学生量体重,检验该地区学生 体重(单位:公斤)的分布是否为正态分布。(数 据文件:“某地区学生体重抽查结果.sav”)
手工(X) 仪器(Y) 4.5 6 6.5 7.2 7 8 10 9 12 9.8
表6 血液中尿酸浓度测量
假设检验问题:
1、将数据排序。
【Data】\【Sort Cases】 要求:观测量按照变量“blood”升序排列
2、利用游程检验来检验两个分组是否具有相同的分布。
【Analyze】\【Nonparametric Tests】\【Runs】 要求:选入检验变量,选择均值作为断点
87 76 76
77 80 77
92 81 78
68 75 92
80 77 75
78 72 80
84 81 78
77 90
81 84
80 86
80 80
77 68
92 77
86 87
表7 血糖浓度抽查
假设检验问题:
1、利用单样本K-S检验来检验文件中的数据是否 服从正态分布。
【Analyze】\【Nonparametric Tests】\【Runs】 要求:选入检验变量,选择正态分布检验
2、计算泊松分布的期望估计值
【Analyze】\【Descriptives Statistics】\【Descriptives】
3、计算正态分布的期望概率
【Transform】\【Compute Variable】
思考: 与 区别?
4、利用卡方检验检验这个地区高中二年级学生体重 分别是否为正态分布。
509 505 505 508 502 498 501 495 493 496 498 507 497 506 502 507 504 508 506 505
表5 某品牌消毒液每瓶容量抽查结果
假设检验问题:
1、利用游程检验来检验机器装多装少是否随机。
【Analyze】\【Nonparametric Tests】\【Runs】 要求:选入检验变量,选择中位数作为断点
【Data】\【Weight Case】
2、计算泊松分布的期望估计值
【Analyze】\【Descriptives Statistics】\【Descriptives】
3、计算泊松分布列(即每一类的期望概率值):
【Transform】\【Compute Variable】
注:
4、利用卡方检验检验蚜虫在农作物根部的分布是否 是泊松分布。
82 54 53 38 70 87 73 91 103 62 71 75 69 65 80 77