非参数检验学习资料
第6章 非参数检验
3 1
17
8.5
8 4
5 2
13 6
7 3
19 10
8+9 = 8.5 2
中央财经大学统计学院 37
Wilcoxon符号秩检验:基本原理 符号秩检验: 符号秩检验
分别计算出差值序列中正数的秩和以及负 数的秩和。 显然,如果零假设成立,W+与W-应该比较 接近。如果二者过大或过小,则说明零假 设不成立。 将正数的秩和或者负数的秩作为检验统计 量,根据其统计分布计算p值,从而可以得 出检验的结论。
中央财经大学统计学院 38
特别说明
符号检验在匹配数据分析应用中只用到差 值的符号,而对差值数值的大小未能考虑, 因而失去了部分信息。Wilcoxon符号秩检 验既考虑差值的符号,又考虑差值的大小, 因此在所需的假设条件满足时其功效比符 号检验高。 Wilcoxon符号秩检验也可以用于单样本中 位数的非参数检验,这时只需要将第二个 样本的值设为零假设中的数值即可。
中央财经大学统计学院 33
符号检验
对于差值序列中正数的个数和负数的个数 按照符号检验的方法进行假设检验
中央财经大学统计学院
34
Wilcoxon符号秩检验:基本原理 符号秩检验: 符号秩检验
计算差值绝对值的秩 。 将差值绝对值从小到大排序,其位次就是 的秩(rank),等于0值不参与排序。
中央财经大学统计学院
中央财经大学统计学院 18
软件操作
在SPSS软件中打开数据文件,选择“分析” “非参数检 验” “1样本K-S”,在弹出的对话框中将“时间”设定为 检验变量;检验分布为默认的“常规”(正态分布)。单 击 “确定”
中央财经大学统计学院
19
结果分析
SPSS学习笔记非参数检验
学习必备欢迎下载总体分布未知,不会涉及有关总体分布的参数1.单样本非参数检验:卡方分布,二项分布,K-S检验,变量值随机性检验2.两独立样本非参数检验:两独立样本所来自的总体分布是否存在显著差异3.两配对样本非参数检验4.多独立样本非参数检验5.多配对样本非参数检验得到样本数据后,判断总体分布:直方图、P-P图、Q-Q图,或非参数检验1.1 卡方检验:根据样本数据,推断总体分布于期望分布或某一理论分布是否存在显著性差异,是一种吻合性检验,离散型数据。
原假设:样本来自总体的分布与期望分布或某一理论分布无显著性差异。
Eg:心脏病猝死人数与日期。
1.2二项分布检验:检验总体是否服从指定概率为P的二项分布,原假设:样本来自的总体与指定的二项分布无显著差异。
用于:二值型数据,性别,是否合格,是否为三好学生,硬币正反面等,用01表示。
注:检验概率值(检验比例)1.3单样本K-S检验:样本来自的总体是否与某一理论分布有显著差异,是一种拟合优度的检验方法。
用于:探索连续性变量的分布。
正态分布(normal)、均匀分布(uniform)、指数分布(ex.)、泊松分布。
原假设:样本来自的总体与指定的理论分布无显著差异。
另外,对于数据量很大的连续型变量,可以用图形直观判断。
P-P图:数据与理论分布一致时,各个数据点应落在对角线上。
Q-Q图:如果数据与理论分布无显著差异,点应分布在0横线附近。
(没找到啊?)2 Test type:Mann-Whitney: 秩:变量值排序的名次或位置K-S检验:游程检验Wald-wolfwitz Runs极端反应检验Moses Extreme Reactions:踢出极端值前后P值变化情况,是否踢出。
注:不同分析方法对同批数据的分析,结论可能不相同,要反复进行探索性分析,还要注意方法本身侧重点上的差异性。
4 中位数检验强调位置,Kruskal-Wallis检验侧重分析平均秩,Jonckheere比较同相对数。
8非参数检验
②正态近似法:
u | T n0 ( N 1) / 2 | n1n2 ( N 1) / 12
本例u 2.205 0.05/ 2 1.96
N3 N ; 3 3 N N (ti ti )
i
*校正公式(当相同秩次较多时)
uc u c; c
ti为第i个相同秩号的数据个数
假定:两组样本的总体分布形状相同
如果两总体 分布相同
基本思想
两样本来自同一总体 任一组秩和不应太大或太小
T 与平均秩和 n0 (1 N ) / 2 应相差不大
较小例数组的秩和, n1 n2 T min( R1 , R2 ), n1 n2
N n1 n2 n0 min( n1 , n2 )
控制 显效 有效 近控
65 18 30 13 126
107 24 53 24
1-107 108-131 132-184 185-208
54 119.5 158 196.5
编号 1 2
病情 单纯型 单纯型合并肺气肿
疗效 控制 显效
3
4 … 206 207
单纯型合并肺气肿
单纯型 … 单纯型 单纯型合并肺气肿
10 12(12 1) / 4 | R n(n 1) / 4 | u 2.275 n(n 1)(2n 1) / 24 12(12 1)(2 12 1) / 24
查标准正态分布表,得 P 值 校正公式: (当相同秩次个数较多时)
u
| R n(n 1) / 4 | n(n 1)(2n 1) / 24 (ti3 ti ) / 48 10 12(12 1) / 4
第一节 非参数检验的概念
统计学习理论中的非参数检验
统计学习理论中的非参数检验统计学习理论是一种以统计学为基础,利用数据和统计方法来进行预测和推断的理论框架。
在统计学习中,非参数检验是一种重要的方法,用于检验数据样本是否满足某种分布或者参数设定。
本文将介绍非参数检验的基本概念、原理和应用,并探讨其在统计学习理论中的重要性。
一、非参数检验的基本概念非参数检验是一种基于样本数据而不依赖特定参数设定的统计方法。
与参数检验相比,非参数检验更加灵活,适用于数据分布未知、样本量较小或者不满足正态分布等情况。
非参数检验基于样本数据的秩次而不是具体数值大小,因此对异常值和离群点的鲁棒性更强。
二、非参数检验的原理非参数检验的原理主要基于两个假设:独立性和随机性。
首先,非参数检验假设样本数据是独立同分布的,并且数据点之间没有相互影响。
其次,非参数检验假设样本数据是随机抽样得到的,即样本数据可以代表总体的特征。
三、非参数检验的常用方法1. Wilcoxon符号秩和检验:用于比较两个相关样本之间的差异是否显著。
该方法基于样本数据的秩次差异来进行检验,适用于小样本量或者近似正态分布的情况。
2. Mann-Whitney U检验:用于比较两个独立样本之间的差异是否显著。
该方法将两组样本的数据合并后,通过对秩次排序来计算检验统计量,适用于非正态分布或者小样本量的情况。
3. Kruskal-Wallis单因素方差分析:用于比较两个以上独立样本之间的差异是否显著。
该方法基于样本数据的秩次差异来计算方差分析的检验统计量,适用于非正态分布或者小样本量的情况。
4. Friedman秩和检验:用于比较两个以上相关样本之间的差异是否显著。
该方法将多组相关样本数据的秩次差异合并后计算检验统计量,适用于非正态分布或者小样本量的情况。
四、非参数检验在统计学习中的应用非参数检验在统计学习中广泛应用于模型评估和特征选择等领域。
通过对模型预测结果与真实观测值之间的差异进行非参数检验,可以评估模型的预测准确性和稳定性。
非参数检验
组别 95-99 90-94 85-89 80-84 75-79 70-74 65-69 60-64 55-59 50-54 45-49
fo 4 12 18 28 44 72 46 40 22 18 10 314
组上限 99.5 94.5 89.5 84.5 79.5 74.5 69.5 64.5 59.5 54.5 49.5
fe 行合计数 列合计数 总次数
, fb , fd
( a b )( b d ) abcd ( c d )( b d ) abcd
注意:2×2列联表的自由度df=(2-1)(2-1)=1
例 为比较某新药与传统药物治疗脑动脉硬化的疗效, 临床试验结果见表,问两种药物的疗效有无差异? 表 两种药物治疗脑动脉硬化的疗效 处理措施 新药组 有效 无效 合计 44 24 68
41(38.18) 3(5.82)
传统药物组 18(20.82) 6(3.18) 合计 59 9
• 4、关于2×2列联表在数据合并上应注意 的问题 • 2×2列联表只是 的一个特例,实际上, 在很多情况下,变量的分类不止两个,当 我们把各部分数据合并成2×2列联表来表 达时,可能会忽略其中一些重要的变量, 造成 检验的失真,即可能会出现这样的 情况:单独分析每一个2×2列联表所得的 结果与合并成一个2×2列联表所做的 分 析结果相矛盾。
2
( 69 74 . 4 ) 74 . 4
(16 11 . 6 ) 11 . 6
22 . 2748
• 3、推断:
取 0 . 05 , df 5 1 4 , 查表得: 22 . 2748
2 2 0 . 05 ( 4 ) 2 0 . 05 ( 4 )
非参数检验
非参数检验的优点:
①适用范围广,不论样本来自的 总体分布形式如何,都可适用;
②某些非参数检验方法计算简便, 研究者在急需获得初步统计结果时可 采用;
的总体分布不同。 α=0.05
2.混合编秩
依据两组数值由小到大编秩,结果 见上表。
3.求秩和并确定检验统计量T
把两组秩次分别相加求出两组的秩 和值,R1=315.5,R2=149.5。因乳 酸钙组样本含量较小,故 T=R2=149.5。
4.确定P值和作出推断结论 以较小样本含量为n1,n1=14, n2n1=2,查附表6,两样本比较秩和检验 用T界值表(双侧)。
当n1>20或(n2-n1)>10时,附表6 中查不到P值,则可采用正态近似法求u 值来确定P值,其公式如下:
u T n1(N 1) / 2 0.5 n1n2(N 1) 12
上式中T为检验统计量值,n1、n2 分别为两样本含量,N=n1+n2,0.5这 连续性校正数。上式为无相同秩次时使 用或作为相同秩次较少时的近似值。当 两样本相同秩次较多(超过总样本数的 25%)时,应按下式进行校正,u经校 正后可略增大,P值则相应减小。
式中,Ri为各组的秩和,ni为各组 样本含量,N为总样本含量。
当各组相同秩次较多时,可对H值进 行校正,按下式求值。
Hc H c
C 1
(t
3 j
t
j
)
(N3 N)
4.确定P值和作出推断结论
当组数K=3,每组样本含量ni≤5时, 可查附表7(H界值表)得到P值。若 k>3或ni>5时,H值的分布近似于自 由度为k-1的χ2分布,此时可查附表 4χ2界值表得到P值。最后按P值作出 推断结论。
第十讲 非参数检验
分析完全随机设计的多样本计量资料时,若多样本观察指标不满足正态性和方差齐性, 不能进行方差分析, 以及多样本观察指标为等级 (有序分类) 资料, 宜采用 Kruskal-Wallis H 秩和检验。
14
第二节秩和检验 —完全随机设计多样本的秩和检验
【例11-4】某医生在研究再生障碍性贫血时, 测得不同程度再生障碍性贫血患者血清中可溶 性CD8抗原水平(U/ml),结果见表11-5,问不 同程度再生障碍性贫血患者血清中可溶性CD8抗 原水平有无差别?
通常规定,当 n1 n2 时,取较小样本的秩和作为检验统计量 T ;当 n1 n2 时,取秩和 较小者作为检验统计量 T 。
9
第二节秩和检验 —成组设计资料的秩和检验
【例11-2】某医院某医生对28例糖尿病早期微血管病 变的患者,按年龄、性别、病程、中医证候评分、生存 质量量表评分、饮食控制等情况,随机分为两组,试验 组采用西药加中药联合治疗方法,对照组采用西药加安 慰剂治疗方法,治疗4周,测定24小时尿蛋白改变量, 结果见表11-3,问该中药对糖尿病患者早期微血管病变 有无疗效?
16
第二节秩和检验 —完全随机设计多样本的秩和检验
【例11-5】探讨中药联合NB-UVB治疗寻常性银 屑病的临床疗效。95例患者分为3组,治疗组35 例给予NB-UVB照射,同时中药浴疗;对照1组33 例予NB-UVB照射,对照2组30例给予中药浴疗。 结果见表11-6,试比较三组疗效是否有差异?
4
第一节 非参数检验简述
表 11-1 参数检验与非参数检验的区别 非参数检验 推断总体分布,如中位数是否相等,是 否符合某种分布 参数检验 推断总体的参数,如算数均数、方 差、率是否相等 已知总体分布:如正态分布、二项 分布、poission 分布
非参数检验
➢ 编秩:数据相等则取平均秩,
➢ 求秩和
➢ 计算检验统计量H值
H 12 N(N 1)
Ri2 3( N 1) ni
出生体重(kg)xij ABCD
相应秩次 Rij A BCD
2.7 2.9 3.3 3.5
3
4
7 11
2.4 3.2 3.6 3.6
2 5.5 12.5 12.5
2.2 3.2 3.4 3.7
χ 2 12
R
2 i
3(N1)
N(N1) ni
χ2
12 14(14 1)
152
4
152 3
37.52 4
37.52 3
3(14
1)
χ 2 9.375
χ
2 c
1
χ2
(t
3 j
t
j
)
n3 n
1
(23
9.375 2) (33 3) (23
143 14
2)
9.50
四、随机区组设计资料的秩和检验 (Friedman test)
正态近似法
如果n1或n2-n1超出附表的范围,可按下式 计算u值:
u | T n1(N 1) / 2 | 0.5 n1n2 (N 1) / 12
在相同秩次较多时,应用下式进行校正:
uC u / C
C 1
(t
3 j
t
j
)
/(N
3
N)
tj为第j组相同秩次的个数
频数表资料(或等级资料)两样本资料比较
xi (2) 86 71 77 68 91 72 77 91 70 71 88 87
12 对双胞胎兄弟心理测试结果
后出生者得分 差 值
统计学非参数检验
非参数检验的弱点
可能会浪费一些信息 特别当数据可以使用参数模型
的时候 大样本手算相当费事 一些表不易得到
参数检验
〔parametric 总体分t布es类t〕型,对未知
➢ 在参数检验和非参数检验都可以使用的情况下, 非参数检验的成效〔power〕要低于参数检验方 法。
以下情况下应当首选非参数方法
➢ 参数检验中的假设条件不满足,从而无法应用。例 如总体分布为偏态或分布形式未知,且样本为小样 本时。
➢ 检验中涉及的数据为定类或定序数据。 ➢ 所涉及的问题中并不包含参数,如判断某样本是否
在非正态总体小样本的情况下,假如要对总体 分布的位置进展推断,由于t检验不适用,也 可使用符号检验的方法。
在数据呈偏态分布的情况下,我们可能对总体 的中位数更感兴趣,希望对总体的中位数作出 推断,这时可以使用符号检验的方法。
例6.3 在某地区随机调查了60个家庭的月收入。 〔数据文件:家庭月收入.sav〕。根据样本数 据能否认为总体中家庭月收入的中位数等于 5000元〔显著性程度a=0.05〕?
c2统计量的分布与自由度有关; c2统计量描绘了观察值与期望值的接近程度
拟合优度检验〔goodness of fit test〕
用c2统计量进展统计显著性检验的重要内容之 一;
根据总体分布状况,计算出分类变量中各类别 的期望频数,与分布的观察频数进展比照,判 断期望频数与观察频数是否有显著差异,从而 到达对分类变量进展分析的目的。
非参数统计的名字中的“非参数(nonparametric) 〞意味着其方法不涉及描绘总体分布的有关参 数;
第十讲非参数检验详解
4
第一节 非参数检验简述
表 11-1 参数检验与非参数检验的区别 非参数检验 推断总体分布,如中位数是否相等,是 否符合某种分布 参数检验 推断总体的参数,如算数均数、方 差、率是否相等 已知总体分布:如正态分布、二项 分布、poission 分布
推断目的
总体分布
未知总体分布
检验方法 检验效能
t 检验、 z 检验、 F 分析等
中医药统计学与软件应用
曹治清
成都中医药大学管理学院 数学与统计教研室 czq9771@
第10讲 非参数检验
非参数检验简述
秩和检验
Ridit分析
2
第10讲 非参数检验—引言
假设检验分为参数检验(parametric tests)和 非参数检验(nonparametric tests)。参数检验是 在总体分布形式已知的情况下,用样本指标对 总体分布的参数进行推断的方法。常用的参数 检验方法有t、z、F检验等。非参数检验 (nonparametric tests)是在总体分布未知情况 下,比较总体分布或分布位置是否相同的统计 方法。
高
T 检验、 H 检验、 M 检验等
低
非参数检验适用于:
(1)资料的总体分布类型未知或偏态;(2)方差不齐; (3)一端或两端开口的资料;(4)等级资料。
5
第二节秩和检验 ——基本思想
将原始数据转化为秩次,计算各组秩次之和, 比较各组秩和的不同来推断总体分布有无差异。 若比较组之间的秩和接近,则认为各组间没有 差别;反之,如果各组间的秩和相差悬殊,则 认为各组间存在差别。
10
第二节秩和检验 —成组设计资料的秩和检验
表 11-3 糖尿病早期微血管病变患者疗效
第十一章非参数检验
第十一章 非参数检验前面有关章节讨论的参数检验都要求总体服从一定的分布,对总体参数的检验是建立在这种分布基础上的。
例如,两样本平均数比较的t 检验和多个样本平均数比较的F 检验,都要求总体服从正态分布,推断两个或多个总体平均数是否相等。
本章引入另一类检验——非参数检验(non-parametric test )。
非参数检验是一种与总体分布状况无关的检验方法,它不依赖于总体分布的形式,应用时可以不考虑被研究的对象为何种分布以及分布是否已知。
非参数检验主要是利用样本数据之间的大小比较及大小顺序,对两个或多个样本所属总体是否相同进行检验,而不对总体分布的参数如平均数、标准差等进行统计推断。
当样本观测值的总体分布类型未知或知之甚少,无法肯定其性质,特别是观测值明显偏离正态分布,不具备参数检验的应用条件时,常用非参数检验。
非参数检验具有计算简便、直观,易于掌握,检验速度较快等优点。
非参数检验法从实质上讲,只是检验总体分布的位置(中位数)是否相同,所以对于总体分布已知的样本也可以采用非参数检验法,但是由于它不能充分利用样本内所有的数量信息,检验的效率一般要低于参数检验方法。
例如,非配对资料的秩和检验,其效率为t 检验的86.4%,就是说以相同概率判断出差异显著,t 检验所需的样本个数要少13.6%。
非参数检验内容很多,本章只介绍常用的符号检验(sign test ),秩和检验(rank-sum test )和等级相关分析(rank correlation analysis )三种。
第一节 符号检验一、配对资料的符号检验(一)配对资料符号检验的意义 配对资料符号检验是根据样本各对数据之差的正负符号多少来检验两个总体分布位置的异同,而不去考虑差值的大小。
每对数据之差为正值用“+”表示,负值用“-”表示。
可以设想如果两个总体分布位置相同,则正或负出现的次数应该相等。
若不完全相等,至少不应相差过大,否则超过一定的临界值就认为两个样本所来自的两个总体差异显著,分布的位置不同。
生物统计学:非参数检验
{ n+,n-}= n+=2 。
3、统计推断 当n=15时, 查附表11 得 临 界 值K0.05(15)=3 , K0.01(15) = 2 , 因 为 K = 2 = K0.01(15),P≤0.01,表明噪数与总体中位数比较的符号检验
1、建立假设 HO:样本所在的总体中位数=已知总体中 位数; HA :样本所在的总体中位数≠已知总体 中位数。 (若将备择假设 HA 中的“≠”改为“<” 或“>”,则进行一尾检验)
依赖于特定分布类型, 比较的是参数
优点:方法简便、易学易用,易于推广使用、应用范围广;可 用于参数检验难以处理的资料(如等级资料,或含数值 “>50mg”等)。 缺点:方法比较粗糙,对于符合参数检验条件者,采用非参数 检验会损失部分信息,其检验效能低;样本含量较大时,两者 结论常相同。
第一节 符号检验
非参数检验的弱点 可能会浪费一些信息 特别当数据可以使用参数模型的时候 大样本手算相对麻烦 一些表不易得到
参数检验 (parametric test)
非参数检验 (nonparametric test)
已知总体分布类型,对 未知参数进行统计推断
对总体的分布类型不作严 格要求 不受分布类型的影响, 比较的是总体分布位置
124.3 147.9 -15.7 7.9 +
1、提出无效假设与备择假设
HO :该地成年公黄牛胸围的平均数=140厘米, HA :该地成年公黄牛胸围的平均数≠140厘米。
2、计算差值、确定符号及其个数 样本各观测值与总体 平均数的差值及其符号列于表 11-2 ,并由此得 n+=6 ,n-=4 ,
非参数统计的名字中“非参数”意味着其方法不 涉及描述总体分布的有关参数;
SPSS第6章 非参数检验
•现实生活中有很多现象的数据取值仅分两类,例如:学生可以按性别 分成男生和女生,产品可以按质量分成合格和不合格,投掷硬币实验的 结果可能出现正面或反面等。这时,如果某一类情况出现的概率是P, 则另一类情况出现的概率就是Q(即1-P),这种分布称为二项分布。 •【例6-3】根据过去的观察,用旧方法生产某种产品,其不合格率为1%。 现采用新方法,在600件产品中,发现了2件不合格品,问是否可以认为 新方法的不合格率明显低于旧方法的不合格率? •1、方法基本思路 •二项检验属于拟合优度检验,适用于数据只能划分为两类的总体。二 项检验是检验是否认为从样本中观察到的两类比例来自具有指定P的总 体。H0:样本所属总体的分布形态与指定的二项分布无显著差异。 •就例6-3而言,H0:样本所属总体分布是P=1%的二项分布。 •SPSS中的二项分布检验,在样本数小于等于30时,按照计算二项分布概 率的公式进行计算;在样本数大于30时,计算的是Z统计量。SPSS将自 动计算Z统计量,并给出其所对应的概率值。如果Z值对应的概率值小于 或等于给定的显著性水平α,则应拒绝H0,认为样本所属的总体分布形 态与指定的二项分布存在显著差异;如果对应的概率值大于给定的显著 性水平α,则没有足够理由拒绝H0,认为样本所属的总体分布形态与指 定的二项分布无显著差异。
•c.“Expected Values”选项区可设定总体的各类别构成。若选用默认值则表示 所有各类构成比都相等;在“Values”框中可自行定义设定总体的各类构成, 输入的数值的个数和排放次序应和数据文件中的相对应。本例选用默认值。
•d. 单击图6.2主对话框中的“Options”按钮进行统计,“Statistics”用于确定 是否需要输出描述统计指标和分位数。
3、简要评论
非参数检验资料.
(二)频数表资料(或等级资料) 的两样本比较
[例3]:20名正常人和32名铅 作业工人尿棕色素定性 检查结果见下表3,问 铅作业工人尿棕色素是 否高于正常人?
表3 正常人和铅作业工人尿棕色
素定性检查结果
尿棕 N1 人数 N2
色素 正常人
铅作业工人
-
18
8
+
2
10
++
0
7
+++ 0
3
++++ 0
4
非参数检验
秩和检验
上海第二医科大学 公共卫生学院 蔡泳
非参数统计的概念 non-parametric statistics
不知道所研究样本来自总体的分 布型或已知总体分布与检验所要 求的条件不符,此时可用非参数 统计进行假设检验
适用资料: 1.总体分布为偏态或分布形式未知 2.等级资料 3.个别数据偏大或数据的某一端无
表1 甲乙两方法分别测定某车间空 气中CS2的含量比较
采样 甲法 乙法 差值 秩次
号
(1)
+-
(2) (3) (4) (5) (6)
1
50.7 60.0 -9.3
9
2
3.3 3.3 0 -
-
3
28.8 30.0 -1.2
4
4 46.2 43.2
5
1.2 2.2
6 25.5 27.5
7
2.9 4.9
秩和检验
• 配对资料的符号秩和检验 • 两样本的秩和检验 • 等级(有序分类)资料的秩和检验 • 多组资料的秩和检验
一、配对资料的符号秩和检验 (wilcoxon signed rank test, 又称差数秩和检验)
非参数检验-知识点思政案例
非参数检验-知识点思政案例非参数检验,这可是统计学里的一块“硬骨头”呢!不过别怕,咱们一起来把它“啃”下来。
咱先来说说啥是非参数检验。
想象一下,你手里有一堆数据,这些数据可不是那种规规矩矩、整整齐齐的,它们有点“调皮捣蛋”,不符合常见的分布规律,比如正态分布。
这时候,参数检验可能就不太好使了,就得请出非参数检验这位“大神”。
比如说,你想比较两个班级学生的成绩,但是这些成绩的分布乱七八糟,参数检验在这时候就傻眼啦,非参数检验却能大显身手。
它不依赖于那些严格的分布假设,就像一个不拘小节的大侠,能应对各种复杂的数据情况。
那非参数检验都有哪些招式呢?比如说,有秩和检验,这就像是给数据排个队,然后根据它们的顺序来判断差异。
还有符号检验,就好像给数据贴上正负的标签,通过标签的数量来看有没有不同。
再来讲个思政的例子。
就好比在一个团队合作的项目中,大家的贡献不能简单地用一些明确的指标来衡量。
这时候,非参数检验的思路就能派上用场啦。
不能只看表面的数字,要综合各种因素,去发现那些隐藏在背后的价值和努力。
比如说,有的同学虽然表面上完成的任务数量不多,但是他们提出的创新想法可能对整个项目有着至关重要的作用。
这就像非参数检验中那些看似不起眼的数据,其实蕴含着重要的信息。
再比如说,在社会发展中,不能仅仅以经济增长的数字来判断一个地区的发展水平,还要考虑到环境、文化、社会公平等多方面的因素。
这不也是一种非参数检验的思维吗?咱们学习非参数检验,可不能光是死记硬背那些公式和方法,得真正理解它背后的思想。
就像练武,招式是次要的,内功心法才是关键。
非参数检验就像是一把灵活的钥匙,能打开那些常规方法打不开的锁。
它教会我们要全面、灵活地看待问题,不被表面的现象所迷惑。
总之,非参数检验虽然有点复杂,但只要咱们用心去学,去体会,就能掌握它的精髓,用它来解决更多实际的问题。
相信大家都能在这个知识的海洋里畅游,收获满满的智慧!。
非参数统计(non-parametricstatistics)又称任意分布检验(
例11.6(P195)。
(一)建立检验假设
H0:某中药治疗四种病型 的疗效总体分布相同 H1:四个总体的分布不同 或不全同
0.05
(二)计算统计量H值 (1)编秩:a、计算各等级的合计人数 b、确定秩次范围 c、计算平均秩次 (2)求各组秩和
R1 65(139.5) 18(304.0) 30(397.5) 13(504.5)
血浆总皮质醇含量有差别(不同或不全同)。
若还希望分析具体哪些组之间有差别,需进一步两两组 间比较。方法见《卫生统计学》第五版P196,《医学统计学》 第二版P183等。
当相同秩次较多(超过25%)时,需进行如下校正。
例11.4(P193),见表11-4。
(一)建立检验假设
H0:接种三种不同菌型伤 寒杆菌存活日数总体分 布相同 H1:三个总体的位置不同 或不全同
适用于完全随机设计分组的多个样本比较(即不满足参
数统计条件的),目的在于判断多个总体分布是否相同。
例11.3(P192),见表11-3。
(一)建立检验假设
H
:血浆总皮质醇含量的
0
三个总体分布相同
H1:血浆总皮质醇含量的 三个总体分布不同或不 全同
0.05
(二)计算统计量H值
1、编秩
先将各组数据分别由小到大排列,统一编秩,不同组的
注意:等级资料对程度的比较不应选检验。
例11.5(P194)。
(一)建立检验假设
H
:吸烟工人和不吸烟工
0
人的HbCO%含量总体分布位置相
同
H1:吸烟工人的HbCO%含量高于不吸烟工人 的HbCO%含量
0.0(5 单侧)
(二)计算统计量u值
(1)编秩:a、计算各等级的合计人数
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
非参数检验非参数检验(Nonparametric tests)是统计分析方法的重要组成部分,它与参数检验共同构成统计推断的基本内容。
参数检验是在总体分布形式已知的情况下,对总体分布的参数如均值、方差等进行推断的方法。
但是,在数据分析过程中,由于种种原因,人们往往无法对总体分布形态作简单假定,此时参数检验的方法就不再适用了。
非参数检验正是一类基于这种考虑,在总体方差未知或知道甚少的情况下,利用样本数据对总体分布形态等进行推断的方法。
由于非参数检验方法在推断过程中不涉及有关总体分布的参数,因而得名为“非参数”检验。
单样本非参数检验SPSS单样本非参数检验是对单个总体的分布形态等进行推断的方法,其中包括卡方检验、二项分布检验、K-S检验以及变量值随机性检验等方法。
1、总体分布的卡方检验例如,医学家在研究心脏病人猝死人数与日期的关系时发现:一周之中,星期一心脏病人猝死者较多,其他日子则基本相当。
当天的比例近似为2.8:1:1:1:1:1:1。
现收集到心脏病人死亡日期的样本数据,推断其总体分布是否与上述理论分布相吻合。
卡方检验方法可以根据样本数据,推断总体分布与期望分布或某一理论分布是否存在显著差异,是一种吻合性检验,通常适于对有多项分类值的总体分布的分析。
它的原假设是:样本来自得总体分布与期望分布或某一理论分布无差异。
2、二项分布检验在生活中有很多数据的取值是二值的,例如,人群可以分成男性和女性,产品可以分成合格和不合格,学生可以分成三好学生和非三好学生,投掷硬币实验的结果可以分成出现正面和出现反面等。
通常将这样的二值分别用1或0表示。
如果进行n次相同的实验,则出现两类(1或0)的次数可以用离散型随机变量X来描述。
如果随机变量X为1的概率设为P,则随机变量X值为0的概率Q便等于1-P,形成二项分布。
SPSS的二项分布检验正是要通过样本数据检验样本来自的总体是否服从指定的概率为P的二项分布,其原假设是:样本来自的总体与指定的二项分布无显著差异。
从某产品中随机抽取23个样品进行检测并得到检测结果。
用1表示一级品,用0表示非一级品。
根据抽样结果验证该批产品的一级品率是否为90%。
3、单样本K-S检验K-S检验方法能够利用样本数据推断样本来自的总体是否服从某一理论分布,是一种拟合优度的检验方法,适用于探索连续型随机变量的分布。
例如,收集一批周岁儿童身高的数据,需利用样本数据推断周岁儿童总体的身高是否服从正态分布。
再例如,利用收集的住房状况调查的样本数据,分析家庭人均住房面积是否服从正态分布。
单样本K-S检验的原假设是:样本来自得总体与指定的理论分布无显著差异,SPSS的理论分布主要包括正态分布、均匀分布、指数分布和泊松分布等。
4、变量值随机性检验变量值随机性检验通过对样本变量值的分析,实现对总体的变量值出现是否随机进行检验。
例如,在投硬币时,如果以1表示出现的是正面,以0表示出现的是反面,在进行了若干次投币后,将会得到一个以1,0组成的变量值序列。
这时可能会分析“硬币出现正反面是否是随机的”这样的问题。
变量值随机性检验正是解决这类问题的一个有效方法。
它的原假设是:总体变量值出现是随机的。
变量随机性检验的重要依据是游程。
所谓游程是样本序列中连续出现相同的变量值的次数。
可以直接理解,如果硬币的正反面出现是随机的,那么在数据序列中,许多个1或许多个0连续出现的可能性将不太大,同时,1和0频繁交叉出现的可能性也会较小。
因此,游程数太大或太小都将表明变量值存在不随机的现象。
例:为检验某耐压设备在某段时间内工作是否持续正常,测试并记录下该时间段内各个时间点上的设备耐压的数据。
现采用游程检验方法对这批数据进行分析。
如果耐压数据的变动是随机的,可认为该设备工作一直正常,否则认为该设备有不能正常工作的现象。
两独立样本的非参数检验两独立样本的非参数检验是在对总体分布不甚了解的情况下,通过对两组独立样本的分析来推断样本来自得两个总体的分布等是否存在显著差异的方法。
独立样本是指在一个总体中随机抽样对在另一个总体中随机抽样没有影响的情况下所获得的样本。
SPSS中提供了多种两独立样本的非参数检验方法,其中包括曼-惠特尼U检验、K-S检验、W-W游程检验、极端反应检验等。
某工厂用甲乙两种不同的工艺生产同一种产品。
如果希望检验两种工艺下产品的使用是否存在显著差异,可从两种工艺生产出的产品中随机抽样,得到各自的使用寿命数据。
甲工艺:675 682 692 679 669 661 693乙工艺:662 649 672 663 650 651 646 6521、曼-惠特尼U检验两独立样本的曼-惠特尼U检验可用于对两总体分布的比例判断。
其原假设:两组独立样本来自的两总体分布无显著差异。
曼-惠特尼U检验通过对两组样本平均秩的研究来实现判断。
秩简单说就是变量值排序的名次,可以将数据按升序排列,每个变量值都会有一个在整个变量值序列中的位置或名次,这个位置或名次就是变量值的秩。
2、K-S检验K-S检验不仅能够检验单个总体是否服从某一理论分布,还能够检验两总体分布是否存在显著差异。
其原假设是:两组独立样本来自的两总体的分布无显著差异。
这里是以变量值的秩作为分析对象,而非变量值本身。
3、游程检验单样本游程检验是用来检验变量值的出现是否随机,而两独立变量的游程检验则是用来检验两独立样本来自的两总体的分布是否存在显著差异。
其原假设是:两组独立样本来自的两总体的分布无显著差异。
两独立样本的游程检验与单样本游程检验的思想基本相同,不同的是计算游程数的方法。
两独立样本的游程检验中,游程数依赖于变量的秩。
4、极端反应检验极端反应检验从另一个角度检验两独立样本所自得两总体分布是否存在显著差异。
其原假设是:两独立样本来自的两总体的分布无显著差异。
基本思想是:将一组样本作为控制样本,另一组样本作为实验样本。
以控制样本作为对照,检验实验样本相对于控制样本是否出现了极端反应。
如果实验样本没有出现极端反应,则认为两总体分布无显著差异,相反则认为存在显著差异。
多独立样本的非参数检验多独立样本的非参数检验是通过分析多组独立样本数据,推断样本来自的多个总体的中位数或分布是否存在显著差异。
多组独立样本是指按独立抽样方式获得的多组样本。
SPSS提供的多独立样本非参数检验的方法主要包括中位数检验、Kruskal-Wallis检验、Jonckheere-Terpstra检验。
例:希望对北京、上海、成都、广州四个城市的周岁儿童的身高进行比较分析。
采用独立抽样方式获得四组独立样本。
1、中位数检验中位数检验通过对多组独立样本的分析,检验它们来自的总体的中位数是否存在显著差异。
其原假设是:多个独立样本来自的多个总体的中位数无显著差异。
基本思想是:如果多个总体的中位数无显著差异,或者说多个总体有共同的中位数,那么这个共同的中位数应在各样本组中均处在中间位置上。
于是,每组样本中大于该中位数或小于该中位数的样本数目应大致相同。
2、Kruskal-Wallis检验Kruskal-Wallis检验实质是两独立样本的曼-惠特尼U检验在多个样本下的推广,也用于检验多个总体的分布是否存在显著差异。
其原假设是:多个独立样本来自的多个总体的分布无显著差异。
基本思想是:首先,将多组样本数据混合并按升序排序,求出各变量值的秩;然后,考察各组秩的均值是否存在显著差异。
容易理解:如果各组秩的均值不存在显著差异,则是多组数据充分混合,数值相差不大的结果,可以认为多个总体的分布无显著差异;反之,如果各组秩的均值存在显著差异,则是多组数据无法混合,某些组的数值普遍偏大,另一些组的数值普遍偏小的结果,可以认为多个总体的分布有显著差异。
3、Jonckheere-Terpstra检验Jonckheere-Terpstra检验也是用于检验多个独立样本来自的多个总体的分布是否存在显著差异的非参数检验方法,其原假设是:多个独立样本来自的多个总体的分布无显著差异。
基本思想与两独立样本的曼-惠特尼U检验类似,也是计算一组样本的观察值小于其他组样本的观察值的个数。
两配对样本的非参数检验两配对样本的非参数检验是对总体分布不甚了解的情况下,通过对两组配对样本的分析,推断样本来自的两个总体的分布是否存在显著差异的方法。
SPSS提供的两配对样本非参数检验的方法主要包括McNemar检验、符号检验、Wilcoxon符号秩检验等。
例:要检验一种新的训练方法是否对提高跳远运动员的成绩有显著效果,可以收集一批跳远运动员在使用新训练方法前后的跳远最好成绩,这样的两组样本便是配对的。
再例如,分析不同广告形式是否对商品的销售产生显著影响,可以比较几种不同商品在不同广告形式下的销售额数据(其他条件保持基本稳定)。
这里不同广告形式下的若干组商品销售额样本便是配对样本。
可见,配对样本的样本数是相同的,且各样本值的先后次序是不能随意更改的。
1、McNemar检验是一种变化显著性检验,它将研究对象自身作为对照者检验其“前后”的变化是否显著。
其原假设是:两配对样本来自的两总体的分布无显著差异。
分析学生在学习“统计学”课程前后对统计学重要性的认知程度是否发生了显著改变,可以随机收集一批学生在学习“统计学”之前以及学完以后认为统计学是否重要的样本数据(0表示“不重要”,1表示“重要”)。
应该看到:两配对样本的McNemar检验分析的变量是二值变量。
因此,在实际应用中,如果变量不是二值变量,应首先进行数据转换后方可采用该方法,因而它在应用范围方面有一定的局限性。
2、符号检验符号检验也是用来检验两配对样本所来自的总体的分布是否存在显著差异的非参数方法。
其原假设是:两配对样本来自的两总体的分布无显著差异。
首先,分别用第二组样本的各个观察值减去第一组对应样本的观察值。
差值为正则记为正号,差值为负则记为负号。
然后,将正号的个数与负号的个数进行比较,容易理解:如果正号个数和负号个数大致相当,则可以认为第二组样本大于第一组样本变量值的个数,与第二组样本小于第一组样本的变量值个数是大致相当的,从总体上讲,这两个组配对样本的数据分布差距较小;相反,如果正号个数和负号个数相差较多,则可以认为两个配对样本的数据分布差距较大。
应该看到:配对样本的符号检验注重对变化方向的分析,只考虑数据变化的性质,即是变大了还是变小了,但没有考虑变化幅度,即大了多少,小了多少,因而对数据利用是不充分的。
3、Wilcoxon符号秩检验Wilcoxon符号秩检验也是通过分析两配对样本,对样本来自的两总体的分布是否存在差异进行判断。
其原假设是:两配对样本来自的两总体的分布无显著差异。
基本思想是:首先,按照符号检验的方法,分布用第二组样本的各个观察值减去第一组对应样本的观察值。
差值为正则记为正号,为负则记为负号,并同时保存差值数据;然后,将差值变量按升序排序,并求出差值变量的秩;最后,分布计算正号秩总和W+和负号秩和W-。