非参数统计学讲义(第六章)分布检验和某些卡方检验
非参数统计讲义四卡方检验课件
确定研究问题
收集相关数据,确保数据质量。
数据收集
对数据进行整理,确保数据符合卡方检验的要求。
数据整理
将数据整理成交叉表形式,以便进行卡方检验。
制作交叉表
根据交叉表中的数据,计算卡方值。
计算卡方值
根据卡方值和自由度,计算p值,判断结果是否具有统计学显著性。
判断显著性
非参数统计讲义四卡方检验课件
目 录
非参数统计概述卡方检验基本概念卡方检验的步骤与公式卡方检验的案例分析卡方检验的优缺点与注意事项
非参数统计概述
参数统计依赖于对数据分布的假设,如正态分布、泊松分布等,而非参数统计则不依赖于任何分布假设。
非参数统计和参数统计都是统计学的重要组成部分,它们在某些情况下可以相互补充。
判断两个分类变量是否独立独立性检验用于检验两个分类变量是否独立。通过比较两个分类变量的实际观测频数与期望频数,可以判断两个变量之间是否存在关联性。这种方法常用于医学、生物学、社会学等领域,如判断两种药物是否具有协同作用、两种疾病是否具有相关性等。公式:$\chi^{2} = \sum \frac{(O{ij} - E{ij})^{2}}{E_{ij}}$解释:其中$O{ij}$表示观测频数,$E{ij}$表示期望频数。
它通过计算卡方统计量,评估观测频数与期望频数之间的差异是否具有统计学显著性。
卡方检验基于假设检验的思想,通过比较实际观测频数与期望频数来推断变量之间的关系。
它通过卡方统计量来衡量实际观测频数与期望频数之间的差异程度,并根据卡方分布计算出p值,从而判断差异是否具有统计学显著性。
卡方检验的步骤与公式
联系
区别
探索性数据分析
在缺乏先验知识的情况下,非参数统计可以帮助我们了解数据的分布和特点。
非参数统计学讲义(第六章)分布检验和某些卡方检验
非参数统计学讲义(第六章)分布检验和某些卡方检验非参数统计学讲义主讲:统计系袁靖第六章分布检验和某些卡方检验§1 引言本章属于拟合优度检验问题,即模型检验或分布的检验,属于非参数检验的范畴。
在初等统计中,人们要想知道数据是否服从某一特定分布,可以通过直方图,或P-P 图,Q-Q 图来直接判断,但这种直观的方式很不精确。
本章将介绍几种分布的检验:K-S 检验,Lilliefors 检验和2χ检验。
实际上,K-S 检验是在针对2χ检验的缺点1上提出的。
它们是建立在经验分布函数基础上的检验结果。
§2 Kolmogorov 检验一、基本假设一般地要检验手中的样本是否来自某个已知0()F x ,假定其真实分布为()F x ,对应的检验类型有00:()()A H F x F x = 对x ? 10:()()H F x F x ≠ 至少有一个x 00:()()B H F x F x = 对x ? 10:()()H F x F x < 至少有一个x 00:()()CH F x F x = 对x ? 10:()()H F x F x > 至少有一个x设()S x 为该组数据的经验分布函数,则()()i i I X x X x S x n n≤≤==∑的目二、基本方法Kolmogorov 于三十年代提出了一种基于经验分布的检验方法,基本思想是:由格里文科定理,当n →∞时,样本经验分布?nF 以概率1一致收敛到总体分布F ,为此可以定义()S x 到0()F x 的距离为 00((),())sup ()()D S x F x S x F x =-当H 0成立时,由格氏定理,D 以概率1收敛到0,因此D 的大小可以度量0()F x 对总体分布拟合的好12χ检验与K-S 检验均属拟合优度检验,但2χ检验常用于定类尺度测量数据,K-S 检验还用于定序尺度测量数据;当预期频数较小时,2χ检验常需要合并邻近的类别才能计算,K-S 检验则不需要,因此它能比2χ检验保留更多的信息;对于特别小的样本数目,2χ检验不能应用,而K-S 检验则不受限制。
非参数统计讲义通用课件
假设检验方法
总结词
假设检验方法用于检验一个关于总体 参数的假设是否成立。
详细描述
假设检验方法包括提出假设、构造检 验统计量、确定临界值和做出决策等 步骤。常见的假设检验方法有t检验、 卡方检验、F检验等,用于判断样本数 据是否支持假设。
关联性分析方法
总结词
关联性分析方法用于研究变量之间的相关性。
02
非参数统计方法
描述性统计方法
总结词
描述性统计方法用于收集、整理、描述数据,并从数据中提取有意义的信息。
详细描述
描述性统计方法包括数据的收集、整理、描述和可视化,例如均值、中位数、 众数、标准差等统计量,以及直方图、箱线图等图形化表示。这些方法可以帮 助我们了解数据的分布、中心趋势和离散程度。
非数统计与机器学习算法的结 合将有助于解决复杂的数据分析 问题。
02
与大数据技术的融 合
非参数统计将借助大数据技术处 理海量数据,挖掘数据背后的规 律和模式。
03
与社会科学研究的 互动
非参数统计方法将为社会科学研 究提供更有效的研究工具和方法 。
决策树分析方法
总结词
决策树分析方法是一种基于树形结构的非参 数统计学习方法。
详细描述
决策树分析方法通过递归地将数据集划分为 更小的子集,构建出一棵决策树。决策树的 每个节点表示一个特征属性上的判断条件, 每个分支代表一个可能的属性值,每个叶子 节点表示一个分类结果。决策树分析可以帮 助我们进行分类、预测和特征选择等任务。
非参数统计的发展趋势
多元化发展
非参数统计将不断拓展其应用领域,从传统的医学、生物 、经济领域向金融、环境、社会学等领域延伸。
01
算法优化
随着计算能力的提升,非参数统计的算 法将进一步优化,提高计算效率和准确 性。
非参数检验卡方检验讲解
行总和 பைடு நூலகம்1=100 R2=80 T=180
C1=120
( f oij f eij )2 f eij
(58 66.7)2 (42 33.3)2 (62 53.3)2 (18 26.7)2 7.61 66.7 33.3 53.3 26.7
2 0.05 (1) 3.84
独立性检验
配合度检验
• 例1:某大学二年级的公共体育课是球类 课,根据自己的爱好,学生只需在篮球、 足球和排球三种课程中选择一种。据以 往的统计,选择这三种课程的学生人数 是相等的。今年开课前对90名学生进行 抽样调查,选择篮球的有39人,选择足 球的28人,选择排球的23人,那么,今 年学生对三种课程选择的人数比例与以 往不同?
df (行数-1) (列数-1) 1
2 2 0.05 (1)
拒绝零假设,即男女对公共场所禁烟的态度有显著差异。
四格表的简易算法
赞成 男 女 A 58 C 62 A+C=120 不赞成 B 42 D 18 B+D=60 A+B=100 C+D=80 N=A+B+C+D=180
N ( AD BC ) 7.61 ( A B)(C D)( A C )( B D)
• • •
类别数据的处理形态: 次数与百分比 类别数据的呈现: 次数分布表与列联表 类别数据的分析: 卡方检验与其它关联性 分析法
卡方检验的主要内容
•
•
配合度检验
– – – – 某一个变量是否与某个理论分布或总体分布相符合 检验的内容仅涉及一个变量,是一种单因子检验 同时检测两个类别变量﹙X与Y﹚之间的关系时,其 目的在于检测从样本得到的两个变量的观察值,是 否具有特殊的关联。 检测同一个样本的两个变量的关联情形
6非参数检验
N 100
Mean 7.284
Std. Deviation .3687
Minimum 6.6
Maximum 8.0
25th 7.000
75th 7.400
组别 Observed N Expected N 8 6.4 8 9.5 11 15.7 25 20.1 24 19.4 10 14.6 7 8.6 7 5.6 100 Re sidual 1.6 -1.5 -4.7 4.9 4.6 -4.6 -1.6 1.4
游程数太多或者太小都表明变量值不是随 机的
关于随机性的游程检验(run test)
出现0和1的的这样一个过程可以看成是参数为某未知p 的Bernoulli试验。 我们定义m和n之后,在0和1的出现是随机的零假设之 下,R的条件分布就和这个参数无关了。 根据初等概率论,R的分布可以写成 (令N=m+n)
游程检验方法是检验一个取两个值的变量的这两 个值的出现是否是随机的。 假定下面是由0和1组成的一个这种变量的样本: 0000111111001011100000000 其中相同的0(或相同的1)在一起称为一个游程 (单独的0或1也算)。 这个数据中有4个0组成的游程和3个1组成的游程。 一共是R=7个游程。其中0的个数为m=15,而1的 个数为n=10。
D0 0, K ( x) 2 2 ( 1) exp ( 2 j x ), D0 j
警告
经常有人在Kolmogorov-Smirnov检验中,当 检验不能拒绝总体分布为某分布时,来“接 受”或“证明”该样本来自该分布。这是错 误的。 比如我们有由1、2、3、4、5五个数目组成的 数据,我们分别检验该数据是否是正态分布、 均匀分布、Poisson分布或指数分布。结果归 纳为下表
第6章非参数检验
下图给出了一名目标球员连续30场比赛进球数据。试用游程检验方法研 究该球员状态,判断其发挥是否稳定。
6.3.3 课堂练习:运动员状态稳定性判断
2. 实例操作
选择菜单栏中的【分析】∣【非参数检验】∣【旧对话框】∣【游程】命令, 弹出如下图所示对话框。
在【单样本K-S检验】对话框的候选变量列表框中选择变量,将其添加至【检验 变量列表】列表框中,选择的变量就是要进行分析的观测变量。
【检验分布】对话框用于指定检验的分布类型,包括以下4个复选框。 【常规】:选择此项,则检验变量是否服从正态分布,这是系统默认选项。 【相等】:选择此项,则检验变量是否服从均匀分布。 【泊松】:选择此项,则检验变量是否服从泊松分布。 【指数分布】:选择此项,则检验变量是否服从指数分布。
0
2
10
5
Fn
(
x)
10
6
10
9
10
1
x 1 1 x 2 2 x4 4 x5 5 x 10 x 10
6.4.2 单样本K-S检验的SPSS操作详解
选择菜单栏中的【分析】∣【非参数】∣【旧对话框】∣【单样本K-S】命 令,弹出【单样本K-S检验】对话框,如下图所示。这是的主操作窗口。
6.4.3 课堂练习:考试成绩是否服从正态分布
1. 实例内容 下图给出了山东某大学某专业30名男生的百米速度。试用单样本K-S检验 方法研究其是否服从正态分布。
6.4.3 课堂练习:考试成绩是否服从正态分布
2. 实例操作 选择菜单栏中的【分析】∣【非参数】∣【旧对话框】∣【单样本
卡方检验与非参数检验
卡方检验与非参数检验卡方检验与非参数检验是统计学中常用的两种假设检验方法。
它们在样本数据不满足正态分布或方差齐性等假设条件的情况下,仍可以进行假设检验,因此被称为非参数检验方法。
本文将详细介绍卡方检验与非参数检验的原理、应用以及比较。
一、卡方检验卡方检验是一种用于检验两个或多个分类变量之间是否存在相关性的统计方法。
它将实际观察到的频数与期望的频数进行比较,从而判断两个分类变量是否存在相关性。
卡方检验主要包括卡方拟合度检验、卡方独立性检验和卡方配对检验等。
1.卡方拟合度检验卡方拟合度检验适用于比较观察到的频数与理论上期望的频数是否有显著差异。
例如,我们可以通过卡方拟合度检验来判断一组骰子的点数是否是均匀分布的。
该方法首先根据理论假设计算每个类别的期望频数,然后计算观察频数与期望频数的差异,并根据差异的大小判断是否有显著差异。
2.卡方独立性检验卡方独立性检验适用于比较两个分类变量之间是否存在相关性。
例如,我们可以使用卡方独立性检验来判断性别与喜好类别之间是否存在相关性。
该方法首先根据理论假设计算每个类别的期望频数,然后计算观察频数与期望频数的差异,并根据差异的大小判断是否有显著差异。
3.卡方配对检验卡方配对检验适用于比较同一组体在两个时间点或处理条件下的观测值是否有差异。
例如,我们可以使用卡方配对检验来判断一种药物在服药前后对疾病症状的治疗效果。
该方法通过比较观察值和期望值之间的差异来判断是否有显著差异。
非参数检验是一种不依赖于总体分布的统计方法,它不对总体的分布形态做出任何假设,因此适用于任何类型的数据。
常见的非参数检验方法包括Wilcoxon符号秩检验、Mann-Whitney U检验、Kruskal-Wallis H检验等。
1. Wilcoxon符号秩检验Wilcoxon符号秩检验适用于比较两组配对样本数据是否存在差异。
例如,我们可以使用Wilcoxon符号秩检验来判断一种药物在服药前后对患者血压的影响。
《-非参数统计-》课程教学大纲上课讲义
《-⾮参数统计-》课程教学⼤纲上课讲义《⾮参数统计》课程教学⼤纲Non-parametric statistics课程代码:课程性质:专业⽅向理论课/选修适⽤专业:统计开课学期:5总学时数:32 总学分数:2.0编写年⽉:2007.5 修订年⽉:2007.7执笔:孙琳⼀、课程的性质和⽬的本课程是学习⾮参数统计和了解统计前沿的基本课程。
本课程结合S-Plus 或R 软件来讲解⾮参数统计⽅法的原理与应⽤。
本课程的⽬的是使学⽣认识到⾮参数统计⽅法是统计中最常⽤的推断⽅法之⼀,理解⾮参数统计⽅法和参数统计⽅法的区别,理解⾮参数统计的基本概念,掌握⾮参数统计的基本⽅法,能应⽤⾮参数统计⽅法去解决实际问题。
⼆、课程教学内容及学时分配第⼀章引⾔(2学时)本章内容:统计的概念,⾮参数统计的⽅法,参数统计与⾮参数统计的⽐较,本章要求:了解⾮参数统计的历史,了解⾮参数统计⽅法和参数统计⽅法的区别,认识⾮参数统计⽅法的必要性。
第⼆章 S-Plus基础(6学时)本章内容:S-Plus环境,向量的定义和表⽰,向量的基本操作,向量的基本运算,向量的逻辑运算,S-Plus 的图形功能,本章要求:熟悉在S-Plus命令⾏中S-Plus基本数据处理,掌握在S-Plus命令⾏中进⾏基本数据基本运算,能编写简单的计算函数,会绘制基本图形。
第三章单⼀样本的推断问题(6学时)本章内容:单样本推断问题,中⼼位置推断,符号检验,游程检验,Cox-staut趣势检验,分位数检验,Wilcoxon符号秩检验,分布检验,Kolmogorov-smirnov正态检验,Liliefor正态检验,中位数检验问题、定性数据检验问题和成对数据检验问题,秩和检验。
本章要求:掌握符号检验,能⽤符号检验解中位数检验问题、定性数据检验问题和成对数据检验问题。
由成对数据检验问题引出符号秩和检验。
掌握Wilcoxon秩和检验法,掌握符号秩和检验,能⽤符号秩和检验解对称中⼼的检验问题和成对数据检验问题,初步理解秩的概念。
非参数统计课程《非参数统计》课程教学大纲模板3.1教学大纲
非参数统计》课程教学大纲课程编号:06542 制定单位:统计学院制定人(执笔人):潘文荣审核人:徐海云制定(或修订)时间:2014年2月28日江西财经大学教务处《非参数统计》课程教学大纲、课程总述、教学时数分配三、单元教学目的、教学重难点和内容设置第一章绪论教学目的】理解非参数统计学习目的和内容。
重点难点】学习非参数统计学的应用意义,明确非参数统计的优缺点。
教学内容】第一节测量的层次第二节假设测验的回顾第三节非参数统计方法第二章单个样本的非参数检验【教学目的】了解符号检验、Wilcoxon 检验、正态计分检验、Cox-Start 趋势检验、游程经验的原理和计算方法,并进行上机操作。
【重点难点】符号检验、游程检验、Wilcoxon 检验的原理和计算方法。
【教学内容】第一节符号检验第二节Wilcoxon 检验第三节正态计分检验第四节Cox-Start 趋势检验第五节游程经验第三章两个相关样本的非参数检验【教学目的】了解符号检验、Wilcoxon 检验在两个相关中的检验,并进行上机操作。
【重点难点】在上一章学习的知识进一步应用到相关处理的比较上。
【教学内容】第一节符号检验第二节Wilcoxon 符号秩检验第四章两个独立样本的非参数检验【教学目的】了解Brown-mood 中位数检验的原理及计算方法,并进行上机操作。
【重点难点】秩和检验的原理和方法【教学内容】第一节Brown-mood 中位数检验第二节秩和检验第五章多个相关样本的非参数检验【教学目的】了解Cochran检验、Friedman检验的原理及计算方法,并进行上机操作。
【重点难点】Fiedman 检验的原理和方法【教学内容】第一节Cochran 检验第二节Friedman 检验第六章多个独立样本的非参数检验【教学目的】了解Kruskal-Wallis 检验、正态计分检验的原理及计算方法,并进行上机操作。
【重点难点】独立样本比较的非参数统计方法。
《非参数统计》课程教学大纲
非参数统计Non-parametricStatistics一、课程基本信息学时:48(含实验8学时)学分:3考核方式:考试,平时成绩占总成绩30%。
中文简介:非参数统计为有效地分析试验设计及其实际问题中所获得的数据提供了丰富的统计工具。
本课程从问题背景与动机、方法引进、理论基础、计算机实现、应用实例等诸多方面介绍了非参数统计方法,其内容包括:基于二项分布的检验、列联表、秩检验、Ko1mogorov-Smirnov 型统计量等。
本课程在强调实用性的同时,突出了应用方法与理论的结合。
在人才培养体系中,该课程属于选修课程,但建议每个统计学专业的学生必须掌握若干种非参数统计方法,以其作为其他重要统计方法的补充。
特别是针对名义数据分析及有序数据分析时相当有用。
二、教学目的与要求非参数统计是研究随机现象存在的统计规律的学科,其在经济、工农业生产和科学技术等领域有广泛的应用,是一门应用性很强的一门课程。
本课程(1)使学生掌握非参数理论的基本原理和方法,重点掌握单样本,多样本的位置检验和尺度检验,以及相关检验和分布检验。
注意与参数统计的区别;(2)结合实际例子,运用非参数理论,提高学生运用该工具解决实际问题的能力。
(3)使学生进一步掌握具体与抽象、偶然与必然、特殊与一般等辨证关系,培养学生辨证唯物主义观点。
三、教学方法与手段教学中主要采用课堂教学的方法,当中穿插大量的案例,同时预留课堂讨论与练习的时间让学生进行实际的操作。
本课程同时设立计算机上机课程,由老师自编实验指导书详细指导学生进行上机实践,强调动脑与动手相结合,理论与实践相结合。
o五、推荐教材和教学参考资源教材:非参数统计:基于R语言案例分析,柳向东编,暨南大学出版社,2010年12月(第1版)参考资料:1)非参数统计,王星编著,北京:中国人民大学出版社,2(X)5年1月(第一版)2)非参数统计方法,吴喜之等,北京:高等教育出版社,1996年(第1版)3)孙山泽.非参数统计讲义.北京:北京大学出版社,2000。
非参数统计讲义四卡方检验课件
结果解释:通过卡方检验,判断教育程度与收入水平之间是否存在关联性。
05
卡方检验与其他统计方法 的比较
与参数检验的比较
数据要求不同
参数检验要求数据服从特定的概率分布(如正态分布),而卡方检验对数据分布没有严 格要求。
使用场景不同
参数检验主要用于估计和检验总体参数,而卡方检验主要用于分类数据的比较和分析。
在弹出的对话框中,选择 “卡方”选项。
在菜单栏上选择“数据 ”-“数据分析”。
在弹出的对话框中,输入 期望值和实际频数,点击 “确定”按钮。
Stata软件实现卡方检验的步骤
打开Stata软件,导入数据。
在命令行窗口中输入“tabulate变量1 变量2”,其中变量1和变量2是你 要进行卡方检验的变量。
卡方检验结果受样本大小 和期望频数的影响,应注 意控制这些因素
卡方检验与Pearson相关系数的区别
卡方检验基于观察频数和期望频数,而 Pearson相关系数基于变量的测量值
卡方检验的结果通常以卡方统计量和卡方值表示,而 Pearson相关系数则以数值表示,范围在-1到1之间
卡方检验用于检验分类变量之间的关联程度, 而Pearson相关系数用于衡量连续变量之间的 线性关系
独立性检验
检验两个分类变量是否独立,如吸烟与饮酒习惯是否 独立。
卡方检验的基本思想
01
通过比较实际观测频数与期望频数,评估观测频数与期望频数 之间的差异程度。
02
利用卡方统计量衡量实际观测频数与期望频数之间的偏离程度
,通过卡方分布计算出概率值。
根据概率值大小判断假设是否成立,从而得出结论。
03
02
非参数检验卡方检验
K-S 分布的拟合优度检验 一、K-S检验概念 K-S检验是检验:实际分布与理论分布的差异是否显著。 Kolmogorov:样本分布是否满足某理论分布(均匀、 正态、泊松) Smirnov: 比较两种统计推断是否相同 二、操作步骤 执行 [Analyze][Nonparametric Test][1-Sample K-S] 选择检验变量到Test Variables检验变量窗口中 定义分布方式,复选项: 正态“Normal” 均匀“Uniform” 泊松“Poisson” 指数“Exponential”
行总和 R1=100 R2=80 T=180
C1=120
( f oij f eij )2 f eij
(58 66.7)2 (42 33.3)2 (62 53.3)2 (18 26.7)2 7.61 66.7 33.3 53.3 26.7
2 0.05 (1) 3.84
“Exact”可以定义各种不同分布下的显著性检验, 使计算更精确: “Asymptotic only”适合于渐进分布的大样本分 布。 “Monte Carlo” 适合不满足渐进分布的大样本分 布。 “Confidence”指定置信区间。 “Number of”指定近似法计算中的个案数。 “Exact”精确计算统计概率。 按钮“Options”中可以设置选项: 统计描述“Descriptive” 中将计算: 均值、标准差、最大值、最小值等。 “Quartiles” 四等分百分位数的计算。 缺失值“Missing Value”: “Exclude cases test by test”表示排除在做统计 分析的变量中含有缺失值的个案。 “Exclude cases listwise”表示排除在检验变量
“Exact”作用与前面相同 “Options” 作用与前面相同 三、命令语句 NPAR TEST /Runs (分界值)=变量名 /MISSING ANALYSIS. 四、应用举例 有两个班级各选拔出20名选手进行数学竞赛,赛后成绩 排序的班级分布如下: 12211212221121122121 21221211111221211212 H0假设:两班的成绩随机分布的。 检验结果: Asymp. Sig. (2-tailed) .144 结论:总个案数“Total Cases” 40个,游程“Number of Runs”26个,渐进显著度水平“Asymp. Sig. (2tailed)” 为0.144>0.05。表明游程既不是最大,也不是最 小,样本的班级分布是随机分布的。
卡方检验 (Chi-square) 参数与非参数检验卡方匹配度检验 卡方独立性检验 卡方检验的前提和
单位格χ2
单位格χ2具有可加性 单位格χ2大于2.5,说明该因素对整个统计
检验的显著贡献较大
卡方独立性检验
检验行和列的两个变量彼此有无关联 是命名型变量, 顺序型变量相关的计算方
法
卡方独立性检验的公式
χ 2= ∑[<f0-f e>2/ f e]
f e=〔row total〕〔column total〕/n,
卡方分布
1. 是一系列平方和相加,没有负值 2. 当H0为真时,Chi square 的数值会小 3. 典型的卡方分布是正偏态,右侧的尾端构成临
界区域 4. 卡方分布的形状并不取决于样本数目,而是取
决于类目数目. df =C-1 5. 当卡方df 增加时,卡方的临界值增加. 6. 当卡方df 增加时,卡方分布的偏态越来越不严
性吗?
卡方匹配度检验的虚无假设-期望次数
在医生职业中,男的多还是女的多? 在外科医生中,男的是否占80%? 最喜欢的咖啡品牌
卡方匹配度检验的公式
f e=pn df =C-1 χ2= ∑[<f0-f e>2/ f e] F0:观察次数 f e :期望次数 C:类目的个数 Χ2:统计量
χ2与效应大小〔effect size〕
Phi系数,范围0至1,是一种多元相关系数 在2×2列联表时,
在多于2×2列联表时,
Phi系数:Cohen’s convension
当dfsmall=1时, Φ=0.10表示小的效应, Φ=0.30表示中等的效
应,Φ=0.50表示高的效应. 当dfsmall=2时, Φ=0.07表示小的效应, Φ=0.21表示中等的效
关系.每个个体被分类为出生顺序为1至3,及高自尊,低 自尊.这个卡方独立性检验的自学生选课的因素有上述4种,哪些因素的影响力更强?
专题八:非参数估计和卡方检验
• 例5:见数据库altogether.sav,比较不同类 型的班级中,学生解决开放题的得分有没 有差异?
五、多个相关样本的差异显著性检验
• Friedman:弗里德曼双向等级方差分析,是Wilcoxon 检验的扩展。适用于重复测量或配对样本设计。每个 被试接受k个实验处理。每个小组k个被试,每个被试 接受一种处理。
• 前提:两组数据分布相同,至少是顺序变量;随机 性与独立性;样本数42人以上用近似Z检验,结果 可靠;42人以下,给出Exact test的结果。
• 例3:检验8个老年痴呆症患者(A组)和6 个脑中分患者(B组)识字能力是否有差异。 见19章_数据1.sav。
• Mann-Whitney U检验和独立样本T检验的适 用标准
χ2=
(
A
T T
)
2
K为自由度
关于自由度
• 自由度(degree of freedom, df):一个样本的各 项数值可以自由变动的项目个数。
• 如样本有n个项目,每项数值都可自由变动,则其自 由度为n;
• 如n个项目的平均数已确定,则只有n-1个项目可以 自由变动,而剩余的另一个项目的数值必然由该样 本的平均数与(n-1)个项目的数值所决定,不能自由 变动。这时,n个项目的自由度就为n-1。
• 前提假设:
✓随机性和独立性
✓样本量越大,近似Z检验的结果就越精确, 当样本量达到26或更大时,检验结果会相 当精确。
✓连续性与对称性(只适用于Wilcoxon方 法),两变量的差值总体呈连续分布,有 对称性。
• 例4:配对的老年痴呆症A组和脑中风患者B 组,共7对被试,汉字识别成绩是否有差异? 见19章_数据2.sav。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
非参数统计学讲义主讲:统计系 袁靖第六章 分布检验和某些卡方检验§1 引 言本章属于拟合优度检验问题,即模型检验或分布的检验,属于非参数检验的范畴。
在初等统计中,人们要想知道数据是否服从某一特定分布,可以通过直方图,或P-P 图,Q-Q 图来直接判断,但这种直观的方式很不精确。
本章将介绍几种分布的检验:K-S 检验,Lilliefors 检验和2χ检验。
实际上,K-S 检验是在针对2χ检验的缺点1上提出的。
它们是建立在经验分布函数基础上的检验结果。
§2 Kolmogorov 检验一、基本假设一般地要检验手中的样本是否来自某个已知0()F x ,假定其真实分布为()F x ,对应的检验类型有00:()()A H F x F x = 对x ∀ 10:()()H F x F x ≠ 至少有一个x 00:()()B H F x F x = 对x ∀ 10:()()H F x F x < 至少有一个x 00:()()CH F x F x = 对x ∀ 10:()()H F x F x > 至少有一个x设()S x 为该组数据的经验分布函数,则()()i i I X x X x S x n n≤≤==∑的目 二、基本方法Kolmogorov 于三十年代提出了一种基于经验分布的检验方法,基本思想是:由格里文科定理,当n →∞时,样本经验分布ˆnF 以概率1一致收敛到总体分布F ,为此可以定义()S x 到0()F x 的距离为 00((),())sup ()()D S x F x S x F x =-当H 0成立时,由格氏定理,D 以概率1收敛到0,因此D 的大小可以度量0()F x 对总体分布拟合的好12χ检验与K-S 检验均属拟合优度检验,但2χ检验常用于定类尺度测量数据,K-S 检验还用于定序尺度测量数据;当预期频数较小时,2χ检验常需要合并邻近的类别才能计算,K-S 检验则不需要,因此它能比2χ检验保留更多的信息;对于特别小的样本数目,2χ检验不能应用,而K-S 检验则不受限制。
此外,2χ检验需要人为对总体分布的支撑集进行划分,将总体分布转化成一种导出分布,后果:①样本信息利用不充分;②实际检验的是导出分布对数据的拟合优度,而不是假设分布对数据的拟合优度。
坏。
可供选择的检验统计量分别为; 类型A 0()()sup xD S x F x =-类型B 0(()())sup xD F x S x +=-类型C 0((()())sup xD S x F x -=-在实际操作时,如果有n 个观察值,用下面的统计量代替上面的D(){}0101max max ()(),()()n i i i i i nD S x F x S x F x -≤≤=--NOTE :①由()S x 的取值是离散的,考虑到跳跃性,该n D 能够保证S 与F 0之间取得最大距离; ②n D 在H 0下的分布有表可查,P201③在大样本时,有近似分布)()n P d K d <→,这里的分布函数()K d 有表达式,P122,该分布有表可查P203:三、应用举例【例6-1】轴承的内径检验检验某车间生产的20个轴承外座圈的内径,测得数据如下(单位:mm )15.04 15.36 14.57 14.53 15.57 14.69 15.37 14.66 14.52 15.41 15.34 14.28 15.01 14.76 14.38 15.87 13.66 14.97 15.29 14.9515μ=,方差220.2σ=的正态分布。
分析:方法一,可以利用直方图、Q-Q 图、P-P 图进行直观判断;由P122表中数据得:200.020.3390.32866D d =>=,拒绝H 0,认为不满足要求。
近似 1.516ξ==,P-值=0.979>0.05,接受H 0。
【例6-2】《数理统计与管理》论文作者服从洛特卡分布2将46期的《数理统计与管理》的文章按第一作者统计,得到表7-2的结果。
论文作者数是否服从洛特卡分布。
分析:洛特卡得出这样的一个关系:若以x 表示每一作者所著的论文数,与其相应的写x 篇论文的作者数为y ,则y 与x 成反比关系。
即有m x y N C =(0.1)式中,N 为论文总数,m 、C 为两个特定的常数,在不同的学科领域数值不同。
假定根据表6—2提供的数据,认为论文作者服从洛特卡分布,并对其真实性进行检验,首先必须确定它的理论分布,即计算出m 、C 的值。
估计m 的值,通常采用最小二乘法。
将(6.1)式进行对数变换,使其线性化,得到:ln ln ln y N C m x =- (0.2)m 相当于一元线性回归方程ˆYa bx =+中的回归系数b ,根据表中的数据运用最小二乘法,得到m=3.0550。
关于C 值,可以用这样一个公式进行近似计算。
这是1985年美国情报学家M.L.Pao 教授在数学家的协助之下提出的。
计算式为:191111/1/(219)1/[(1)19]/(2419)mm m m x C xm m +==++-+∑经计算,1/(1.19080.0000620.0011460.0000008)0.8389C =+++ 。
因此46期《数理统计与管理》的论文与作者数的理论洛特卡分布为3.055()0.8389/f y x =(0.3)为了判定《数理统计与管理》论文作者的实际分布是否与理论分布一致,可以采用Kolmogorov 检验。
建立的假设组为00:()()n H S x F x = 对x ∀ 10:()()n H S x F x ≠ 至少有一个x理论累积频率0()F x 的各个值,可以将x 分别代入(6.3)式计算得到,实际累积频率是将累计的作者2洛特卡定律是1926年6月19日洛特卡(Vlachy )在美国颇有影响的学术刊物《华盛顿科学院杂志》上首先提出,它第一次提示了作者与文献量的统计规律性。
在这之后,洛特卡进一步发展了洛特卡定律,得出这样的一个关系:若以x 表示每一作者所著的论文数,与其相应的写x 篇论文的作者数为y ,则y 与x 成反比关系。
数y ∑分别除以作者总人数得到。
计算结果,作者实际累积频率及理论累积频率及各个差值如表6-3。
1 2 3 4 5 6 7 0()F x 0.8389 0.9398 0.9690 0.9811 0.9872 0.9907 0.9929 ()n S x0.89320.9635 0.9870 0.9896 0.9922 0.9948 1.00000max ()()0.0543n D S x F x =-=根据显著性水平0.01α=,作者人数384n y ==∑,查表,由于45n >,得临界值0.0832d α=。
显然0.05430.0832D d α=<=因此数据在1%的显著性水平上不能拒绝H 0,若显著性水平0.05α=,查表得临界值0.0694d α==。
显然0.05430.0694D d α=<=因此,数据在5%的显著性水平上也不能拒绝H 0,可以认为,《数理统计与管理》作者的分布服从洛特卡分布。
§3 Lilliefors 正态性检验Lilliefors 正态性检验实质上是对Kolmogorov 检验的一个改进。
当用Kolmogorov 检验某样本是否来自一正态总体2(,)N μσ时,当μ和2σ未知时,就会用样本均值X 作为总体均值μ的估计,样本方差2S 作为总体方差2σ的估计,从而将数据i X 标准化为:i X Z μσ-=,再用标准正态分布()x Φ作0()F x 来计算K 氏统计量n D 。
但这时统计量n D 在H 0下的分布发生了改变,Lilliefors (1976)对Kolmogorov 的检验临界值表作了修正。
【例6-3】以例6-1为例在该例中,ˆ14.91X μ==,ˆ0.52S σ==,200.050.11599130.19D d =<=,对于5%的显著性水平,不能拒绝原假设。
而按照Kolmogorov 的临界值表,在5%显著性水平下的临界值为0.294,要比Lilliefors 检验保守。
§4 Smirnov 两样本检验一、 Smirnov 检验主要用来检验两个样本是否同时来自于某一总体,设样本12,,,m X X X 来自()F x 分布,而样本12,,,n Y Y Y 来自分布为()G y 的总体。
Smirnov 检验的基本思想和Kolmogorov 检验一样,因此经常通称这两个检验为Kolmogorov-Smirnov 拟合优度检验,简称K-S 检验。
1. 基本假设检验类型为:类型A 0:()()H F x G x = 对x ∀ 1:()()H F x G x ≠ 至少有一个x 类型B 0:()()H F x G x = 对x ∀ 1:()()H F x G x < 至少有一个x 类型C 0:()()H F x G x = 对x ∀ 1:()()H F x G x > 至少有一个x2. 基本方法设()m F x 和()n G y 分别为这两个样本的经验分布函数。
则检验A 的统计量可以取()(){}max max ()(),max ()()N m i n i m j n j ijD F x G x F y G y =--(0.4)式中N m n =+NOTE :①含义②其它检验类型的统计量仿此可以写出 ③N D 的分布有表可查,P204,P205④大样本时,有近似分布()N P d K d ⎫<→⎪⎪⎭二、 应用举例【例6-4】检验两个地区的GDP 指数是否具有相同的分布华北五省市区和华东七省市1996年的GDP 指数(前一年为100)数据如下:109.2 114.3 113.5 111.0 112.7 华东113.0112.2112.7114.4115.4113.4112.2检验这两个地区的GDP 指数的分布是否相同。
分析:数据的计算过程详见P1260.22/50.40.5714N D d ==<=接受H 0。
§5 χ2拟合优度检验检验目的:检验样本是否来自于某一特定的分布或总体。
在20世纪初,Pearson 提出了拟合优度的2χ统计量。
其基本做法是:首先将样本区间进行分割,抽取n 个观察值(相当于做了n 次试验),则X 落在每个区间中的数目服从多项分布,我们就是让这个多项分布去逼近X 的分布22211()1~(1)kk i i i i i i i n np n Q n k r np n p χ==-==---∑∑(0.5)其中:r 为总体分布里待估参数的个数,k 为划分的组数。