非参数检验
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
秩次号之和,即按某种顺序排列的序号之和,
称为秩和。
2013-11-2
16
秩次和秩和
案例1 设有以下两组数据:
A组
B组
4.7 6.4 2.6 3.2 5.2
1.7 2.6 3.6 2.3 3.7
两组各有5个变量值。现在依从小到大的顺 序将它们排列起来,并标明秩次,结果如下:
A组 2.6 3.2 4.7 5.2 6.4 B组 1.7 2.3 2.6 3.6 3.7 秩次 1 2 3.5 3.5 5 6 7 8 9 10
2013-11-2
9
非参数检验适用范围:
① 总体分布形式未知或分布类型不明; ② 偏态分布的资料(非正态分布的资料): ③ 等级资料:不能精确测定,只能以严重程度、优劣等 级、次序先后等表示 ——单向有序行×列表资料 ④ 不满足参数检验条件的资料:各组方差明显不齐。 ⑤ 数据一端或两端是不确定数值, (必选) 如“>50kg”等。
90年代有关非参数统计的研究和应用主要集中在非 参数回归和非参数密度估计领域,其中较有代表性的 人物是Silverman和J. Fan。
秩次和秩和
本章介绍的非参数统计方法均基于秩次; 秩次(rank):将数值变量值从小到大,或等
级变量值从弱到强所排列的序号。
秩和:用秩次号代替原始数据后,所得某些
对总体参数进行统计推断,而是对样本所代表的总体分布 进行检验。由于这类方法不受总体参数的限制,故称非参 数检验,又称任意分布检验。
参数检验的特点:
分析目的:对总体参数(μ π)进行估计或检验。 分 布:要求总体分布已知,如:
• 连续性资料 ——正态分布 • 计 数 资 料——二项分布、POISSON分布等
统 计 量:有明确的理论依据(t分布、u分布) 有严格的适用条件,如:
•正态分布 •总体方差齐 •数据间相互独立 Normal Equal Variance Independent
条件不满足时——采用非参数统计的方法。
2013-11-2
8
• 非参数检验:对总体分布不做严格假定,也 不对总体参数进行统计推断,而是直接对总 体分布的位置进行假设检验。由于这类方法 不受总体参数的限制,故称非参数检验,又 称任意分布检验(distribution-free test)
含量的均数
:t=-4.695,P<0.05,故认为I期矽肺病人血清黏蛋白含量高于正常人。
表1 正常人和I期矽肺病人血清黏蛋白含量测定结果
分 组 正常人 7.4 7.4 8.8 7.6 9.4 血清黏蛋白含量 ( g/L ) 8.8 9.7 7.1 7.6 7.7 9.8 8.2 9.5 7.3 7.7 8.5 9.1 6.7 10.2
当相同秩次较多时u值需进行校正。
u T n n 1 / 4 0.5 (ti3 ti ) n(n 1)(2n 1) 24 48
一、配对资料符号秩和检验
基本思想
如果H0成立,
即两总体无差异,在理论上的样本的正负秩和相等, 即 即
T值应为总秩和(T总= n(n+1)/2)的一半, T=n(n+1)/4。
合计
3460 114
假设检验的方法有两种:参数检验(parametric test)
和非参数检验(non – parametric test)。
参数检验 :若样本所来自的总体分布已知(如正态分布) ,对其总体参数进行假设检验,则称为参数检验。 非参数检验:不考虑研究对象总体分布的具体形式,也不
第17章 非参数检验
(nonparametric test)
检验方法的选择及应用条件 t 检 验: u 检 验: 方差分析:
2013-11-2
2
某医院医生为了解矽肺病人血清黏蛋白含量,随机抽取正常人和I期矽肺病
人各10例,详细情况见下表。该医生根据此资料算得正常人的血清黏蛋白
X 1 =7.67g / L, 标准差 S1 =0.65g / L ;病人的血清黏蛋白 含量的均数 X 2 =9.05 g / L ,标准差 S2 =0.87 g / L 。配对t 检验结果
22
第一节
配对资料符号秩和检验
一般步骤 ⒈ 建立假设; H0:差值的总体中位数为0; H1:差值的总体中位数不为0; α =0.05。 ⒉计算统计量 ⑴ 算出各对值的代数差; ⑵ 根据差值的绝对值大小编秩; ⑶ 将秩次冠以正负号,计算正、负秩和(T+,T-); ⑷ 用不为“0”的对子数n及取绝对值小的秩和作为统 计量T
I期矽肺病人 8.7
问:(1)该资料是什么类型资料?属于何种设计方案? (2)该医生的统计处理是否正确?为什么?
某医生用甲、乙两种培养基培养结核杆菌40份,结果甲
培养基阳性率为60%,乙培养基阳性率为35%,两种培养基
培养一致阳性率为25%,资料整理为下表。试比较两种培养 基何者为优? 表2 两种方法的检测结果
的分析方法。
注:对符合用参数检验的资料,如用非参数检验, 会丢失信息,导致检验效率下降,犯Ⅱ类错误的可 能性比参数检验大。
2013-11-2
12
参数检验与非参数检验比较
参数检验 要求资料服从 正态分布 非参检验
1. 对资料的没有特殊要求,总体为偏态 、总体分布未知的计量资料(尤其在 n<30的情况) 2. 等级资料 3. 有过大或过小值的数据,或数据的某 一端没有具体值 4. 总体方差不齐
替原始数据信息来进行检验)即检验各组的 平均秩是否相等。如果经检验得各组的平均 秩不相等,则可以推论数据的分布不同,进 一步可推论各分布间分布位置发生了平移。
2013-11-2
20
•内容提要:
• 配对样本比较的Wilcoxon符号秩检验
• 两独立样本比较的Wilcoxon秩和检验
• 完全随机设计多个样本比较的Krusk秩 和检验
配对t检验结果
秩和检验 结果
第二节 两独立样本比较的Wilcoxon秩和 检验
Wilcoxon秩和检验可用于:
• 计量资料的两样本比较
3
4
0.010
0.382
0.030
0.424
-0.020
-0.042
3
5
-3
-5
5 6
7
0.723 0.876
0.035
0.789 0.721
0.014
-0.066 0.155
0.021
6 9
4
-6 9
4
8
9 10 11 12
0.023
0.940 1.201 0.408 1.256
0.020
0.051 1.115 0.612 1.078
2013-11-2
17
秩次和秩和
• 原始值中有两个“2.6”,分属A、B组,计算它 们的平均数(3+4)/2=3.5,作为“2.6”的秩 次,称为“平均秩次” 。 • 这样两组所得的秩次及秩和如下: A组 3.5 5 B组 1 8 9 10 7 /35.5 /19.5 2 3.5 6
2013-11-2
2013-11-2
30
对差值作正态性检验
• P<0.05,不服从正态分布
假设检验步骤
⒈ 建立建设:H0:差值的总体中位数=0,
H1:差值的总体中位数0;
=0.05 2. 首先计算每个对子的差值d,见上表第(4)列,根据8个d 的绝对值,由小到大编秩,并冠以原d的正负号,见上表第(5) 列。然后分别相加正负秩次,得到秩和 T+= 45,T- = 33取统计量: T = min(T+,T-)=T- = 33。 3. 查表及结论 n=12,查T界值表,(13,65),P>0.05,不拒绝H0,尚不能认为 两种方法测得的尿汞平均含量有差异。
2013-11-2
21
第一节 配对样本比较的Wilcoxon符号秩 检验
由Wilcoxon于1945年提出 又称 Wilcoxon 符号秩和检验 适用条件:1、差值不服从正态分布 2、等级资料
常用于检验差值的总体中位数是否等于零 –配对样本差值的中位数和0比较 –单个样本中位数和总体中位数比较
2013-11-2
组别 药物A 药物B 存活天数 4,10,7,50,3,15,2,9,13,>60, >60 9,8,15,32,3,16,4,9,13
下面的资料能否采用 2 检验作统计推断?为何? 表4 两种药治疗慢性气管炎的疗效
组别
A药组 B药组
无效
800 10
好转
1920 60
显效
680 26
控制
60 18
若T值在界值范围内,不拒绝H0,
当T值在界值上或界值范围外,H0成立的概率很小,拒
绝H0 ,认为两总体分布不同
例17-1 留取12名在医用仪表工作的工 人尿液,分成两份,一份用离子交换法,另 一份用蒸馏法测量尿汞值,测定结果见 表17-1,问两种方法测得的尿汞平均含 量有无差别?
表17-1 两种方法测得的尿汞含量 配对号 (1) 1 2 离子交换法 蒸馏法 (2) 0.200 0.020 差值d |d|秩次 (5) 8 2 符号秩次 (6) -8 2 (3) (4) 设计? 资料类型? 0.320 0.015 -0.120 0.005
• ⒊查表及结论
• 查检验界值表得到P值作出判断。
1、当5≤n≤25时 可查附表8的 T界值表,T 愈小,P愈小。 当T恰为附表中的界值时,P值一般都小于 表中对应的概率值。
2、当n>25时 可用正态近似法计算u值进行u检验,
u T n n 1 / 4 0.5 n(n 1)(2n 1) / 24
方 法 甲 法 乙 法 合 计 阳性数 24 14 38 阴性数 16 26 42 合 计 40 40 80
问:(1)该资料是什么类型资料?属于何种设计方案? (2)该资料应采用何种检验方案?其步骤如何?结果
计量资料的 t 检验应满足什么条件?下面的资料能不
能做 t 检验?为什么?
表3 两种药物间大鼠存活天数比较
0.003
0.889 0.086 -0.204 0.178
1
12 7 11 10
1
12 7 -11 10
符号秩检验的基本思想
• 当H0(差值的总体中位数Md=0)成立时,任一配对的差值出现正 号与出现负号的机会均等,因此他们的秩和T+与T-的理论数 (期望值)也应相等,由T+与T-之和为n(n+1)/2可知,T+与T-的 理论数为n(n+1)/4。可以证明:当H0成立时,秩统计量T是以 T=n(n+1)/4为中心的对称分布,在大多数情况下T与n(n+1)/4 的差值较小(纯属抽样误差)。当n很大时,T近似服从均数T为 n(n+1)/4 ,方差为n(n+1)(2n+1)/24的正态分布。H0不成立时, 统计量T呈偏态分布,并且在大多数情况下T远离n(n+1)/4 。 因此在H0成立的情况下T远离n(n+1)/4为小概率事件,可认为 在一次抽样中是不会发生的,故当出现这种情况时推断拒绝H0。
检验效率高
检验效率低,容易犯第二类错误, 原因信息丧失或信息利用不足。
非参数统计的历史
非参数统计的形成主要归功于20世纪40年 代~50年代化学家F.Wilcoxon等人的工作 。Wilcoxon于1945年提出两样本秩和检验 ,1947年Mann和Whitney二人将结果推 广到两组样本量不等的一般情况; Fritman于1948年回答了非参数统计方法 相对于参数方法来说的相对效率方面的问 题;
2013-11-2
10
非参数检验的优缺点:
优点:
– 适用范围广 – 对数据要求不严 – 方法简便、易于理解和掌握
缺点:
– 损失信息、检验效能低
符合条件 不符合条件
首选参数检验
非参பைடு நூலகம்检验
2013-11-2
11
注 意:
• 凡符合或经过变换后符合参数检验条件的
资料,最好用参数检验。当资料不具备参
数检验的条件时,非参数检验是一种有效
非参数统计的历史(续)
60年代中后期,Cox和Ferguson最早将非参数方法 应用于生存分析。 70年代到80年代,非参数统计借助计算机技术和大量 计算获得更稳健的估计和预测,以P.J.Huber以及 F.Hampel为代表的统计学家从计算技术的实现角度 ,为衡量估计量的稳定性提出了新准则。
18
(Rank sum test)
秩和检验
又称秩转换的非参数检验
• 将变量值从小到大或从弱到强转换成秩后再
计算检验统计量,从而推断一个总体表达分
布位置的中位数M和已知M0、两个或多个总体
的分布是否不同
• 特点:对总体分布的形状差别不敏感,只对
总体分布的位置差别敏感
2013-11-2
19
秩和检验
适用资料类型:计量、等级资料 基本思想:基于秩次(通过编秩,用秩次代