统计学6.非参数假设检验(精)

合集下载

数学建模方法-非参数假设检验

数学建模方法-非参数假设检验

两相关样本的非参数检验(2 Related Samples Test)
【例12】clinical trial.sav 比较试验药组(group=1) 治疗前血红蛋白含量(hb1)和治疗后血红蛋白含量(hb2) 有无差异.
这是两组相关计量资料的比较. 结论:P=0.018,有显著性差异.
多个相关样本的非参数检验(K Related Samples Test) 【例13】nonpara_7.sav 分析药物是否有效
两相关样本的非参数检验(2 Related Samples Test) 多个相关样本的非参数检验(K Related Samples Test)
两独立样本的非参数检验(2 Independent Samples Test) 检验两个独立样本间是否具有相同的分布. 【例8】nonpara_3.sav 比较两组人群的RD值有无差别 这是两组计量资料的比较. 选择要检验的变量和分 类变量,定义分类值(1-2),其它使用默认选项即可.从负二项分 布的结论.
单样本的K_S拟合优度检验
检验一计量资料是否服从某种理论分布,这里的分布可以 是正态分布(Normal),均匀分布(Uniform),泊松分布(Poisson), 指数分布(Exponential).
【例7】diameter_sub.sav 检验是否服从正态分布
多个独立样本的非参数检验(K Independent Samples Test) 【例10】nonpara_5.sav 比较三种药物的效果有无差别 这是三组计量资料的比较. 选择要检验的变量和分 类变量,定义分类值(1-3),其它使用默认选项即可. 结论:三组的秩和12.6,7.6,3.8,P=0.008,三种药物的 效果有显著性差异,以甲药效果最好. 【例11】nonpara_6.sav 比较三种固定钉治疗骨折的疗效 这是三组等级/频数资料的比较. 先说明频数变量, 再选择要检验的变量和分类变量,定义分类值(1-3),其它 使用默认选项即可. 结论:P=0.129,故三组无显著性差异.

【统计分析】非参数检验

【统计分析】非参数检验
α=0.05 2. 计算统计量: T+=62.5,T-=3.5
3. 查表与结论 查T界值表,T0.05(11)=10~56,T=3.5,在界 值范围外,P<0.05,拒绝H0。
符号检验(Sign test)
z n n 1 n
二、两样本比较的秩和检验 (Wilcoxon法)
适用条件:完全随机设计的两个样本比较,若不满足参数 检验的应用条件,则用本法;两个等级资料比较。
-0.45
-1
13
15.20
5.50
9.70
11
14
16.50
9.00
7.50
8.5
步骤
1. 建立假设:H0:差值的总体中位数=0, H1:差值的总体中位数0;
=0.05 2. 计算统计量
计算差值d,由小到大的顺序编秩次,并冠以原d 的正负号,然后分别求正负秩和,得到T+=73, T-=5,取秩和较小者作为检验统计量T=5 3. 查表及结论
1.0
2.5
4
17.00
6.50
10.50
12
5
13.00
5.50
7.50
8.5
6
18.00
13.50
4.50
5
7
17.50
10.00
7.50
8.5
8
10.20
10.20
0.00
-
9
10.00
10.00
0.00
-
10
10.50
9.50
1.00
2.5
11
13.80
6.80
7.00
6
12
3.03
3.48

统计学中非参数方法基础知识

统计学中非参数方法基础知识
统计学中非参数方法基础知识
非参数方法
非参数方法对总体概率分布形式的假定没有要求 非参数方法允许基于分类型或品质型数据进行推断
符号检验
总体中位数假设检验 方法 1.假设检验 H0:中位数=N H1:中位数≠N 2.在符号检验中,将每一个样本观测值与中位数的假设值进行比较 如果观测值大于假设值,记为加号 如果观测值小于假设值,记为减号 如果观测值等于假设值,从样本中剔除 3.加号和减号的分配适合二项分布,将假设转化为关于二项概率的假设 H0:p=50% H1:p≠50% 4.基于二项分布的概率,判断是否应该拒绝原假设 当H0:p=0.5时,加号个数的抽样分布的正态 均值=0.5n 方差=0.25n 当n>20时,分布近似正态分布
克鲁斯卡尔-沃力斯检验
非参数克鲁斯卡尔-沃力斯检验的依据是对来自k个总体的k个独立随机样本分析 假设检验
H0:所有总体是相同的 H1:并非所有总体都是相同的
假设检验 H0:方法A的中位数-方法B的中位数=0 H1:方法A的中位数-方法B的中位数≠0
威尔克科森符号秩检验是T的抽样分布 均值=n(n+1)/4 方差=n(n+1)(2n+1)/24
曼-惠特尼-威尔克科森检验
假设检验 H0:两个总体相同 H1:两个总体不相同
相同总体的W的抽样分布 均值=n1(n1+n21)/12 分布形式:当n1≥7且n2≥7时,近似正态分布
两个匹配总体之差的检验 用非参数符号检验来分析匹配样本数据,与t分布方法不同,符号检验既能分析 分类型数据,也能分析数量型数据,并且对二者之差分布没有假定
威尔克科森符号秩检验
威尔克科森符号秩检验是分析匹配样本实验数据的非参数方法,检验使用数量型数 据,但不要求假定匹配观测值之差服从正态分布,只需要假定配对观测值之差具有 对称分布

统计学中的非参数检验方法介绍

统计学中的非参数检验方法介绍

统计学中的非参数检验方法介绍统计学是一门研究收集、分析和解释数据的科学。

在统计学中,我们经常需要进行假设检验,以确定样本数据是否代表了总体特征。

非参数检验方法是一种不依赖于总体分布假设的统计方法,它在现实世界中的应用非常广泛。

本文将介绍一些常见的非参数检验方法。

一、Wilcoxon符号秩检验(Wilcoxon Signed-Rank Test)Wilcoxon符号秩检验是一种用于比较两个相关样本的非参数检验方法。

它的原理是将两个相关样本的差值按绝对值大小进行排序,并为每个差值分配一个秩次。

然后,通过比较秩次总和与期望总和的差异来判断两个样本是否具有统计学上的显著差异。

二、Mann-Whitney U检验(Mann-Whitney U Test)Mann-Whitney U检验是一种用于比较两个独立样本的非参数检验方法。

它的原理是将两个样本的所有观测值按大小进行排序,并为每个观测值分配一个秩次。

然后,通过比较两个样本的秩次总和来判断它们是否具有统计学上的显著差异。

三、Kruskal-Wallis检验(Kruskal-Wallis Test)Kruskal-Wallis检验是一种用于比较三个或更多独立样本的非参数检验方法。

它的原理是将所有样本的观测值按大小进行排序,并为每个观测值分配一个秩次。

然后,通过比较各组样本的秩次总和来判断它们是否具有统计学上的显著差异。

四、Friedman检验(Friedman Test)Friedman检验是一种用于比较三个或更多相关样本的非参数检验方法。

它的原理类似于Kruskal-Wallis检验,但是对于相关样本,它将每个样本的观测值按照相对大小进行排序,并为每个观测值分配一个秩次。

然后,通过比较各组样本的秩次总和来判断它们是否具有统计学上的显著差异。

五、秩相关系数检验(Rank Correlation Test)秩相关系数检验是一种用于检验两个变量之间相关性的非参数检验方法。

假设检验——非参数检验

假设检验——非参数检验

假设检验(二)——非参数检验假设检验的统计方法,从其统计假设的角度可分为两类:参数检验与非参数检验。

上一节我们所介绍的Z 检验、t 检验,都是参数检验。

它们的共同特点是总体分布正态,并满足某些总体参数的假定条件。

参数检验就是要通过样本统计量去推断或估计总体参数。

然而,在实践中我们常常会遇到一些问题的总体分布并不明确,或者总体参数的假设条件不成立,不能使用参数检验。

这一类问题的检验应该采用统计学中的另一类方法,即非参数检验。

非参数检验是通过检验总体分布情况来实现对总体参数的推断。

非参数检验法与参数检验法相比,特点可以归纳如下:(1)非参数检验一般不需要严格的前提假设;(2)非参数检验特别适用于顺序资料;(3)非参数检验很适用于小样本,并且计算简单;(4)非参数检验法最大的不足是没能充分利用数据资料的全部信息;(5 )非参数检验法目前还不能用于处理因素间的交互作用。

非参数检验的方法很多,分别适用于各种特点的资料。

本节将介绍几种常用的非参数检验方法。

一.2检验2检验主要用于对按属性分类的计数资料的分析,对于数据资料本身的分布形态不作任何假设,所以从一定的意义上来讲,它是一种检验计数数据分布状态的最常用的非参数检验方法。

22检验的方法主要包括适合性检验和独立性检验。

(一)2检验概述2是实得数据与理论数据偏离程度的指标。

其基本公式为:2 ( f0 f e)(公式11—9)fe式中,f0 为实际观察次数,f e 为理论次数。

分析公式可知,把实际观测次数和依据某种假设所期望的次数(或理论次数)的差数平方,除以理论次数,求出比值,再将n 个比值相加,其和就是2。

观察公式可发现,如果实际观察次数与理论次数的差异越小, 2值也就越小。

当 f 0 与 f e 完全相同时,2值为零。

际次数与理论次数之差的大小而变化利用2值去检验实际观察次数与理论次数的差异是否显著的方法称为2检验有两个主要的作第一,可以用来检验各种实际次数与理论次数是否吻合的这类问题统称为适合性检验; 第二, 判断计数的两组或多组资料是否相互关联还是相互独立的问 题,这类问题统称为独立性检验。

统计学中的非参数检验方法

统计学中的非参数检验方法

统计学中的非参数检验方法统计学是一门应用广泛的科学领域,它的应用范围涉及到社会、经济、医学、科学等各个领域。

非参数检验方法是统计学中的一种基于数据分布情况的假设检验方法,它不仅可以应用于各个领域的研究中,也是数据分析领域中不可或缺的一部分。

什么是非参数检验非参数检验是一种基于统计数据分布情况做出判断的方法,在对特定类别的数据进行假设检验的时候,不依赖于数据分布的形状,而且它可以处理许多小样本或者没有熟知的总体参数的数据。

非参数检验方法的应用范围广泛,可以用于数据汇总、逻辑推理、实验设计以及其他数据分析中的问题。

非参数检验的优势传统的统计假设检验方法是基于大样本数据的总体参数进行推断的,其可以直接获得总体参数值,但是对于小样本数据而言,则需要使用比较多的假设、术语和统计量、偏差的值来判断出研究问题的可行性,而非参数检验则可以用较少的假设来完成数据分析,避免了数据误判,降低了数据分析的难度。

非参数检验的应用非参数检验方法在实际生活中的应用,主要表现在以下几个方面:1. 样本分布非正态:如果样本数据分布不满足正态分布,这时是可以应用非参数检验方法的。

2. 样本数据较少:如果样本数据较少,传统假设检验方法会有较高的错误率,可以使用非参数检验方法来避免这种情况。

3. 样本数据有异常值:若样本数据存在严重的异常值,应用传统的假设检验方法可能会导致数据误判,此时可以应用非参数检验方法进行数据分析。

常见的非参数检验方法常见的非参数检验方法有:1. Wilcoxon符号秩检验:适合偏差没达到正态分布的样本。

2. Mann-Whitney U检验:主要用于2组样本数据非独立的情况。

3. Kruskal-Wallis检验:用于3组及以上的样本比较,判断样本总体是否有差别。

4. Friedman秩和检验:主要用于分析多组数据的内部联系。

5. Kolmogorov-Smirnov拟合检验:用于检验给定的样本是否符合特定分布。

非参数假设检验

非参数假设检验
明买该光盘与性别的关系不显著。
三、秩和检验(等级和检验)
参数中均值检验在小样本时是如何处理的——要求总体 服从正态分布,当总体不符合正态分布时如何处理?转换成 等级,然后检验,这一类的检验统称为秩和检验。
(一)曼-惠特尼U检验
1.什么是曼-惠特尼U检验。它假设两个样本分别来自两个总 体,目的是检验这两个总体的均值是否有显著的差别。
解:本例中的观测值以月为组,共分为m=6组,每
月的销售台数即为观测的频数 vi ,观测的总次数
为n=150。现欲检验是否服从(离散的)均匀分布, 即每月的销售量是否为
ei
nPi
150 6
25(台),
Pi
1 ,i 6
1,L
,6
为此,设
H0 :洗衣机销售量服从均匀分布;
H1 :并不服从均匀分布;
计算 2 统计量的值:
要求用a=0.05的显著性水平检验顾客的性别和购买金额是否独立。
解:
H0 :购物的金额大小与性别无关(独立); H1 :购物的金额大小与性别有关。
计算列联表各格的理论值:
eij
ric j n
e11
(106)(260) 548
50.29
e12
(210)(260) 548
99.46
(232)(260)
估计的参数的个数。
第四步:根据显著性水平a查 2 分布表求相应的
临界值——2 a
2
2 a
时,拒绝原假设,说明样本观
测并非来自该理论分布。
【例6.10】某百货公司的电器部下半年各月洗衣机 的销售数量如下:
该电器部经理想了解洗衣机的销售数量是否在 各月是均匀分布的,也就是说各月中销售数量的差 别可以归结为随机原因,这样可以为以后的进货提 供依据。要求以a=0.05 的显著性水平进行检验。

非参数假设检验方法

非参数假设检验方法

按 =0.05,自由度为1,查2分布表得
自由度为m-1=1
上页 下页 返回
例4 验证一枚骰子是否均匀。 电话号码的数字出现的概率等等问题。 采用分组离散化方法
若X的分布函数F(x)的具有明确表达式F0(x),不含未知参数。 根据样本信息推断X的分布函数是否为F0(x).
第一步:
第二步:计算
上页 下页 返回
第三步:记数
第四步:检验 其中m为分组数
H0的拒绝域为 一般有 n > 50,npi > 5最好 npi >10,否则应重新分组。 使得npi > 5最好 npi >10.
抽取次数X 1
2
3
4 5
试验累计数 43 31 15 6
5
解 若两色球个数相等,则每次取到白球的概率为1/2 以抽取次数X为考查对象,则X服从几何分布,即
计算得
上页 下页 返回
此是 m = 5, n1 = 43, n2= 31, n3 =15, n4 = 6,n5= 5, n=100
计算有
结论:接受H0
奥地利生物学家孟德尔进行了长达八年之 久的豌豆杂交试验,并根据试验结果,运用他 的数理知识, 发现了遗传的基本规律.
孟德尔


黄色纯系
子一代 绿色纯系
子二代
上页 下页 返回
根据他的理论,子二代中, 黄、绿之比 近似为3:1,
他的一组观察结果为: 黄70,绿27 近似为2.59:1,与理论值相近.
由于随机性,观察结果与3:1总有些差距,因此有 必要去考察某一大小的差异是否已构成否定3:1理论的 充分根据,这就是如下的检验问题.
为了进行检验,还必须知道其分布,否则进行不了

第6章非参数检验

第6章非参数检验
1. 实例内容 某足球俱乐部想要引进一名优秀的前锋运动员以增强前场攻击力。
下图给出了一名目标球员连续30场比赛进球数据。试用游程检验方法研 究该球员状态,判断其发挥是否稳定。
6.3.3 课堂练习:运动员状态稳定性判断
2. 实例操作
选择菜单栏中的【分析】∣【非参数检验】∣【旧对话框】∣【游程】命令, 弹出如下图所示对话框。
在【单样本K-S检验】对话框的候选变量列表框中选择变量,将其添加至【检验 变量列表】列表框中,选择的变量就是要进行分析的观测变量。
【检验分布】对话框用于指定检验的分布类型,包括以下4个复选框。 【常规】:选择此项,则检验变量是否服从正态分布,这是系统默认选项。 【相等】:选择此项,则检验变量是否服从均匀分布。 【泊松】:选择此项,则检验变量是否服从泊松分布。 【指数分布】:选择此项,则检验变量是否服从指数分布。
0

2
10
5
Fn
(
x)

10

6
10

9
10
1
x 1 1 x 2 2 x4 4 x5 5 x 10 x 10
6.4.2 单样本K-S检验的SPSS操作详解
选择菜单栏中的【分析】∣【非参数】∣【旧对话框】∣【单样本K-S】命 令,弹出【单样本K-S检验】对话框,如下图所示。这是的主操作窗口。
6.4.3 课堂练习:考试成绩是否服从正态分布
1. 实例内容 下图给出了山东某大学某专业30名男生的百米速度。试用单样本K-S检验 方法研究其是否服从正态分布。
6.4.3 课堂练习:考试成绩是否服从正态分布
2. 实例操作 选择菜单栏中的【分析】∣【非参数】∣【旧对话框】∣【单样本

非参数检验方法 PPT课件

非参数检验方法 PPT课件

对于符合参数统计分析条件者,采用 非参数统计分析,其检验效能较低
秩和检验
秩和检验(rank sum test):一类常用 的非参数统计分析方法;基于数据的秩次与 秩次之和
两独立样本差别的秩和检验 配对设计资料的秩检验 完全随机设计多组差别的秩和检验
两独立样本比较的秩和检验 Wilcoxon rank sum test
n1=8 T1=216 n2=7
21 26 24 27
T2=134
11.7 11.7 12.0 12.3 12.4 13.6
n3=9
14 15 16 16 20 25
T3=123.5
10.5 10.5 10.5 10.9 11.0 11.5
n4=8
6 7 9 10 12
T4=54.5
假设检验步骤
建立假设检验 • H0:四组鼠脾DNA含量的总体分布相同。 • H1:四组鼠脾DNA含量的总体分布位置不全相
第九章
非参数检验方法
参数统计
(parametric statistics)
已知总体分布类型,对 未知参数(μ、π)进 行统计推断
依赖于特定分布类 型,比较的是参数
非参数统计
(nonparametric statistics)
对总体的分布类 型不作任何要求
不受总体参数的影响, 比较分布或分布位置
适用范围广;可用于任何类型 资料(等级资料,或“>50mg” )
对于计量数据,如果资料方差相等,且服从 正态分布,就可以用 t 检验比较两样本均数。
如果此假定不成立或不能确定是否成立,就 应采用秩和时间(月)
无淋巴细胞转移
有淋巴细胞转移
时间
秩次
时间
秩次

非参数假设检验

非参数假设检验

§ 7.4 非参数假设检验在§7.2中讨论了母体分布类型为已知时的参数假设检验问题.一般在进行参数假设检验之前,需要对母体的分布进行推断.本节将讨论母体分布的假设检验问题.因为所用的方法适用于任何分布或者仅有微弱假定分布,实质上是不依赖于分布的.在数理统计学中不依赖于分布的统计方法统称为非参数统计方法.这里所讨论的问题就是非参数假设检验问题.这里所研究的检验是如何用子样去似全母体分布,所以又称为分布拟合扰度检验,一般有两种:一是拟合母体的分布函数;另一是拟合母体分布的概率函数.这里我们只介绍三种检验方法:概率图纸法. 2χ-拟合优度检验和柯尔莫哥洛夫斯米尔诺夫检验.一, 概率图纸法这是一种比较直观和简便的检验方法.它适合于在现场使用.目前常见的概率图纸有正态,对数正态,二项分布,指数分布和威布尔分布概率图纸等.这里我们只介绍正态概率图纸,关于其它分布的概率图纸的构造原理和使用方法都是类似的1. 正态概率图纸的构造原理设母体ξ有分布函数F(x),{N(μ,2σ)}表示正态分布族.需要检验假设)},({)(:20σμN x F H ∈这里μ和2σ均为未知常数.在原假设0H 为真时,通过中心化变换)(2121)(22)(222σμπσπσμμσμ-Φ===⎰⎰-∞--∞---x du edt ex F x xt即σμξξμ-=)(服从正态N(0,1).函数u(x)是x 的线性函数. σμξξμ-=)( (7.13) 在(x,u(x))直角坐标平面上是一条直线.这条直线过(μ,0),且斜率为σ1. 2. 检验步骤.事实上,我们知道的不是母体ξ取出的一组子样观察值n x x ,,1 由格里汶科定理知道子样的经验分布函数)(x F n 依概率收剑于母体分布函数F(x).所以在检验母分体布函数F(x)是否属于正态分布族时,我们以大子样的经验分布函数)(x F n 作为母体分布的近似.若0H :F(x) ∈{N(μ,2σ)}为真,那末点,,,1)),(,(n i x F x i i =在正态概率图纸上应该在一条直线上.所以根据上述经验分布函数)(x F n 是母体分布函数F(x)很好的近似,点,,,1)),(,(n i x F x i i =在正态概率图纸上也应该近似地在一条直线附近.倘若点列)),(,(i i x F x 不是近似地在一条直线附近,那末只能说明F(x)不属于正态分布族.根据上述想法,用正态概率图纸去检验假设0H 的具体步骤如下.(1) 整理数据 (2) 描点(3) 目测这些点的位置, 3. 未知参数μ与2σ的估计.若通过概率图纸检验已经知道母体服从正态分布,我们就凭目测在概率图纸上画出最靠近各点,,,1)),(,()()(n i x F x i n i =的一条直线l,因为σμξξμ-=)(服从正态N(0,1),所以当0)(=-=σμξμx ,即x=μ时对应的概率F=0.5.因此,只要在概率图纸上面一条F=0.5的水平直线.这条直线与直线l 的交点的横坐标5.0x 就可以作为参数为μ的估计.又由μ(x)=1时所对应的概率F=0.8413的水平直线,这条直线与直线l 的交点的横坐标为8413.0x .这个8413.0x 显然满足18413.08413.0=-=σμμx 即μσ-=8413.0x 因此可以用差5.08413.0x x -估计σ.例 7.8 (略)见P 338 二, 2χ的似体检验法前面介绍了直观而简便的概率图纸法,它不需要很多计算就能对母体分布族作出一个统计推断,并且还能对分布所含的参数作出估计.但是这种方法因人而异,且精度不高,又不能控制犯错误的概率.这里介绍2χ-拟合检验法,它能够像各种显著性检验一样控制犯第一类错误的概率.设母体ξ的分布函数为具有明确表达式的F(x),.我们把随机变量ξ的值域R 分成k 个互不相容的区间[][][]k k k a a A a a A a a A ,,,,,,1212101-=== 这些区间不一定有相同的长度.设n x x ,,1 是容量为n 的子样的一组观测值.i n 为子样观测值n x x ,,1 中落入i A 的频数.n n ni i =∑=1在这n 次事件i A 出现的频率为nn i. 我们现在检验原假设)()(:00x F x F H =.设在原假设0H 成立下,母体ξ落入区间i A 的概率为i P ,即k i a F a F A P P i i i i ,1),()()(100=-==- (7.14)此时n 个观察值中,恰有1n 个值落入1A 内,2n 的观察值落入2A 内,k n 个观察值落入k A 内的概率为k n n n n k P P P n n n n 212121!!!!这是一个多项分布.按大数定理,在0H 为真时,频率nn i与概率i P 的差异不应太大.根据这个思想构造一个统计量2χ=∑=-ki i i i nP nP n 12)( (7.15)称做2χ-统计量.往后可以看到,用2χ表示这一统计量不是没有原因的.因为它的极限分布就是自由度为k-1的2χ-分布.为了能够把2χ-统计量用来作检验的统计量,我们必须知道它的抽样分布.我们先k=2的简单情形.在0H 成立下,221)(,)(P A P P A P i ==其中121=+P P这时,频数n n n =+21我们考察222212112)()(nP nP n nP nP n -+-=χ (7.16) 令222111,nP n Y nP n Y -=-= (7.17)显然0)(212121=+-+=+P P n n n Y Y (7.18)由此可见1Y 与2Y 不是线性独立,且21Y Y -=.于是21212221212P nP Y nP Y nP Y =+=χ 21111)1(⎥⎥⎦⎤⎢⎢⎣⎡--P nP nP n (7.19) 根据德莫弗-拉普拉斯极限定理,当n 充分大时,随机变量)1(1111P nP nP n --的分布是接近于正态的,从而推得k=2情形的分布,当n 充分大时,是接近于自由度为1的2χ-分布.对于一般情形有如下的定理.定理 7.1 当0H 为真时,即k P P ,,1 为母体的真实概率时,由(7.15)式所定义的统计量2χ的渐近分布是自由度为k-1的2χ-分布,即密度函数为⎪⎪⎩⎪⎪⎨⎧⎪⎭⎫ ⎝⎛-Γ=---,0,2121)(22321xk k e x k x f (7.20) 证 因为在n 个观测值中恰有1n 个观测值落入1A 内, 2n 的观察值落入2A 内,k n 个观察值落入k A 内的概率为k n n n n k P P P n n n n 212121!!!!这里n n n n k =+++ 21.其特征函数nk j it jk je P t t ⎪⎪⎭⎫⎝⎛=∑=112),,( ϕ (7.21) 令k j nP nP n Y jjj j ,2,1, =-=(7.22)于是有∑∑===-=kj j kj jj j Y nP nP n 12122)(χ (7.23)和∑=kj j jP Y1=0 (7.24)由此式看出,诸随机变量j Y 不是线性独立的.(k Y Y ,,1 )的联合分布的特征函数具有形状2111exp exp ),,(⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛•⎪⎪⎭⎫ ⎝⎛-=∑∑==kj j j j kj j jk nPit P nP it t t ϕ (7.25) 两边取对数得⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫⎝⎛+-=∑∑==k j j jj kj j jn nP it P n P t n i t t 111exp ln ),,(ln ϕ (7.26) 利用指数数函和对数函在0=j t 处的泰勒展开:⎪⎭⎫ ⎝⎛+-=-⎥⎥⎦⎤⎢⎢⎣⎡n nP t nP it np it j jj j jj 121exp 2ο和)(2)1ln(22x x x x ο+-=+于是)1(21211211ln ),,(ln 11212111211οοϕ+⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛--+-=⎪⎪⎭⎫ ⎝⎛⎪⎭⎫ ⎝⎛+-++-=∑∑∑∑∑∑∑=======k j k j k j j j j j j k j j j k j k j j j j kj j jk P t n i t n P t n i n P t n i n t n P t n i n P t n i t t当∞→n 时⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛--→∑∑==k j kj j j j k P t t t t 1212121),,(ln ϕ 即⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛--=∑∑==∞→k j k j j j j k n P t t t t 1212121exp ),,(lim ϕ (7.26) 作一正交变换:⎪⎪⎩⎪⎪⎨⎧=-==∑∑==kj j k j kj lj l Y P Z k l Y a Z 111,,1, (7.27) 其中lj a 应该满足1,,1,,0,11-=⎩⎨⎧≠==⋅∑=k r l r l r l a a kj rjlj 和1,,1,01-==∑=k l P akj j lj由⎪⎪⎩⎪⎪⎨⎧=-==∑∑==kj j j k kj y ij l t P u k l t a u 111,1, (7.28) 得到∑∑∑-====⎪⎪⎭⎫ ⎝⎛-1122112k j j kj i k j j j u P t t (7.29) 由(7.26)知,当∞→n 时,(k Z Z ,,1 )的特征函数⎭⎬⎫⎩⎨⎧-=∑-=∞→112121exp ),,(lim k j j k n u u u ϕ.这意味着11,,-k Z Z 的分布弱收剑于相互独立的正态N(0,1)分布,而k Z 依概率收剑于0.因此∑∑====kj j k j j Z Y 12122χ的渐近分布是自由度为k-1的2χ-分布.如果原假设0H 只确定母体分布类型,而分布中还含有未知参数m θθ,,1 则我们还不能用定理7.1来作为检验的理论依据.费歇证明了如下定理.从而解决了含未知参数情形的分布检验问题.定理 7.2 设F(x; m θθ,,1 )为母体的真实分布,其中m θθ,,1 为m 个未知参数.在F(x;m θθ,,1 )中用m θθ,,1 的极大似然估计mθθ∧∧,代替m θθ,,1 并且以F(x; mθθ∧∧,)取代(7.4)中的F(x)得到),,1;(),,1;(1m a F m a F i i iP θθθθ∧∧-∧∧∧-= (7.30)则将(7.30)代入(7.15)所得的统计量∑=∧∧-=kj i ini nn p p 122()χ (7.31)当∞→n 时有自由度为k-m-1的2χ-分布.例 7.9 (略)见P 345由例子来总结一下利用2χ-检验分布假设的步骤:(1)把母体ξ的值域划分为k 个互不相交的区间[,,,1),,1k i a a i i =+其中k a a ,1可以分别取∞∞-,;(2) 在0H 成立下,用极大似然估计法估计分布所含的未知参数; (3)在0H 成立下,计算理论概率)()(010i i i a F a F p -=+并且算出理论频数i nP ; (4)按照子样观察值n x x x ,,,21 落在区间),[1+i i a a 中的个数,即实际频数,,,1,k i n i =和(3)中算出的理论频数i nP ,计算ii i nP nP n )(2-=χ的值;(5)按照所给出的显著性水平α,查自由度k-m-1的2χ-分布表得)1(21---m k αχ,其中m 是未知参数的个数; (6)若2χ21αχ-≥,则拒绝原假设0H ,若212αχχ-<,则认为原假设0H 成立.三 柯尔莫哥洛夫似合检验------n D 检验2χ-似合检验是比较子样频率与母体的概率的.尽管它对于离散型和连续型母体分布都适用.但它是依赖于区间的划分的.因为即使原假设)()(:00x F x F H =不成立,在某种划分下还是可能有k i P a F a F a F a F i i i i i ,,1,)()()()(1001 ==-=---从而不影响(7.5)中2χ的值,也就是有可能把不真的原假设0H 接受过来.由此看到,用2χ-检验实际上只是检验了,,,1,)()(100k i P a F a F i i i ==--是否为真,而并未真正地检验母体分布F(x)是否为)(0x F .柯尔莫哥洛夫对连续母体的分布提出了一种方法.一般称做柯尔莫哥洛夫检验或n D -检验.这个检验比较子样经验分布函数)(x F n 和母体分布函数F(x)的.它不是在划分的区间上考虑)(x F n 与原假设的分布函数之间的偏差.而是在每一点上考虑它们之间的偏差.这就克服了2χ-检验的依赖于区间划分的缺点.但母体分布必须假定为连续.根据格里汶科定理,我们可以把子样经验分布函数看作实际母体分布函的缩影.如果原假设成立,它与F(x)的差距一般不应太大.由此柯尔莫哥洛夫提出一个统计量|)()(|sup x F x F D n xn -= (7.32)并且得到这统计量n D 的精确分布和极限分布K(λ).它们都不依赖于母体的分布.这里我们不加证明地引入柯尔莫哥洛夫定理.定理 7.3 设母体ξ有连续分布函数F(x),从中抽取容量为n 的字样,并设经验分布函数为)(x F n ,则|)()(|sup x F x F D n xn -=的分布函数⎪⎭⎫ ⎝⎛+<n D P n 21λ=n n n n dy y y f n n n nn n n n n 2120212,1,),,(0,021********22121-<≤⎪⎪⎪⎩⎪⎪⎪⎨⎧-≥<⎰⎰⎰+-+-+---λλλλλλλλλ 当(7.33)其中⎩⎨⎧<<<=其它当,010!),(11n n y y n y y f在∞→时有极限分布函⎪⎩⎪⎨⎧≤>--=→<∑-∞=0,00),2exp()1()()(22λλλλλ当当n j j n j K D n P (7.34) 在应用柯尔莫哥洛夫检验时,应该注意的是,原假设的分布的参数值原则上应是已知的.但在参数为未知时,近年来有人对某些母体分布如正态分布和指数分布用下列两种方法估计.()可用另一个大容量子样来估计未知参数,(2)如果原来子样容量很大,也可用来估计未知参数.不过此n D -检验是近似的.在检验时以取.较大的显著性水平为宜,一般取α=0.10-0.12.n D -检验检验母体有连续分布函数F(x)这个假设的步骤如下:(1) 从母体抽取容量为n 的子样,并把子样观察值按由小到大的次序排列;(2) 算出经验分布函⎪⎪⎩⎪⎪⎨⎧≤=<≤<=+x n j x x x nx n x x x F k j j jn 当当当,1,,1,,)(,0)()1()()1((3) 在原假设0H 下,计算观测值处的理论分布函数F(x)的值; (4) 对每一个i x 算出经验分布函数与理论分布函数的差的绝对值||)()(||)()()()1()()(i i n i i n x F x F x F x F --+与(5) 由(4)算出统计量的值(6) 给出显著性水平α,由柯尔莫哥洛夫检验的临界值表查出αα=≥)(,n n D D P的临界值α,n D ;当n>100时,可通过n D n /1,ααλ-≈查n D 的极限分布函数数值表得αλ-1从而求出α,n D 的近似值.(7) 若由(5)算出的α,n n D D ≥则拒绝原假设0H ;若α,n n D D <则接受假设,并认为原假设的理论分布函数与子样数据是似合得好的. 例 7.10 略) 见P 351定理 7.4 当样本容量21n n 和分别趋身于∞时,统计量|)()(|212121,sup x F x F D n n xn n -=有极限分布函数)(212121λλK D n n n n P n n →⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧<+ ⎪⎩⎪⎨⎧≤>--=∑∞-∞=0,00),2exp()1(22λλλ当当j j j (7.35) 例 7.11 (略)见P 353。

假设检验-参数检验非参数检验-置信区间

假设检验-参数检验非参数检验-置信区间

假设检验-参数检验⾮参数检验-置信区间1. 假设检验⼩概率事件和反证法的应⽤。

H0:原假设H1:备选假设解释:假设在H0前提下,我们得到⽬前⼿头上的样本,定义为⼀个概率事件,概率为α(0.05, 0.01, 0.001),是⼩概率事件。

通过公式计算P值,P<α, 则确认我们得到⽬前⼿头上的样本是⼀个⼩概率事件,⽽⼩概率事件在⼀次试验中是不可能发⽣的,但事实发⽣了,则原假设错误,接受备选假设。

正经解释:H0:只存在抽样误差,不存在系统误差H1:存在抽样误差和系统误差在只存在抽样误差的前提下,我们得到⽬前样本的概率为P,如果P<α,则证明不只是存在抽样误差,还存在系统误差。

在参数检验中,像t分数,F统计量,卡⽅统计量等,它的分布是什么形式的,统计学家已经算出来。

之所以有分布,是因为变异的存在,分布就是描述变异的规律。

Z分布是均值,率分布规律T分布是均值差的分布规律F分布是⽅差⽐的分布规律x2是⽅差、实际频数和理论频数的分布规律接着来:1. 参数检验思想以 t 分布为例,t 分布是说从均值为u, ⽅差为 sigma⽅的正态分布总体中,随机抽取样本量为n的样本,⽤均值差 / 标准误,抽⼀次得到⼀个 t 分数,抽⼀万次得到⼀万个 t 分数(这只是描述,实际密度函数是⼈家推导出来的),从⽽得到 t 分布规律。

这就是说,在只有抽样误差的时候(因为这就是进⾏的反复抽样,像正态分布是对样本不停抽样,计算均值⼀样),95% 的 t 分数是( x1, x2)之间。

提前设定⼀个拒绝⽔平(也就是概率值),也就是犯错概率,就是阿尔法,当 t 分数落到拒绝域对应的区间,我们认为只有抽样误差的时候,我们认为 t 是不可能落在这个范围。

alpha这么⼩,如果我们还犯错,我们认了。

95%解释:1. 在只有抽样误差的时候,抽样⼀百次,95个 t 分数是( x1, x2)之间。

如果样本 t 分数不属于这95个之⼀,我们拒绝原假设。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(2) 大样本情况下, 正负号个数检验法的处理
在大样本情况下( 即 mp 10 ), 可以近似地用正态分布 来处理. 现在 p =0.5, 所以只要 m 20 即可. 用统计量:
Z U p ~ N (0,1) p(1 p) m
在计算统计量 Z 的值z 时, 在式中要用 u (即n+ /m)代替U.
如果我们把xi = yi 的个数记为n0, 并从样本总数 n 中扣 除, 则 m = n – n0 , 表示了n 个样本中 xi yi的个数。 m 个样本对中, 把xi - yi > 0的个数记为n+ , xi - yi < 0 的个数记为n- , 则有m = n+ + n- . 设整数 r 满足: 0 r m, 则可以由下式计算出 “xi - yi > 0的个数为n+ ” 的概率 :
n(n 1) U1 nm w1 2
m(m 1) U 2 nm w2 2
对给定 , 查U 值表, 得 U. 若U < U , 则总体分布相同. 注意: 方法 (1), (2), (3) 是两个总体分布的比较, 与分布的具 体形式无关, 所以, 理论上可以用来检验两个任意形式的分 布是否相同.
记 ni 为样本 x1,x2,· · · ,xn 中落在区间 i 中的个数(频次或频 数),那么,频率ni /n (n 至少为50, 最好100 以上)与 概率 pi 之差应当很小,否则就应当拒绝假设H0 (总体的累 积概率分布函数为 F(x) ).
可以证明 (K. Pearson), 在 H0 成立的条件下, 统计量:
1、检验两个总体的分布是否相同:符号检验法(正负号个 数检验法)
检验两个总体的分布是否相同的符号法又称正负号个数 检验法。它所要处理的问题是:假设两个总体的分布F(x) 与G(x)相同,用两个总体的容量相同的配对样本 x1,x2, · · · , xn 与y1,y2, · · · , yn 来检验它, 即检验假设H0 : F(x) = G(x) 是否成立 . 设两个总体的样本相互独立, 当 H0 : F(x) = G(x) 成立时, 概 率P{Xi <Yi} 应当与概率 P{Xi >Yi}相同, i = 1,2, · · · ,n. 也就是说, 对于样本观测值而言, xi - yi > 0的个数(记为n+), 应 当与xi - yi < 0的个数(记为n- ) 基本相同 (从样本观测值角度, 不一定刚好相等). 如果两者相差很远, 我们就有理由, 拒绝假 设H0 : F(x) = G(x).
P(r k1 )

确保k1的外侧概率小于等于/2, 从而求出k1.
进而, 在假设p = 0.5 (H0假设) 的前提下, 按照B(m, p) 的概率计算公式, 对 r 从小到大, 求累积概率:
2
P( r k
2
)

2
确保 k2 的外侧概率小于等于/2, 从而求出k2 .
如果实际的“xi - yi > 0的个数n+ ”在(k1 ,k2)中就接受 H0 : p = 0.5 ( 即 F(x) = G(x) ), 否则拒绝H0 ,认为p 0.5, 即 F(x) G(x) .
第六章
非参数假设检验
§ 6.1 总体分布的非参数假设检验
非参数假设检验(分布检验)所处理的问题是: (1)两个总体的分布未知,它们是否相同(用两组 样本来检验); (2)(由一组样本)猜出总体的分布(假设),然 后用(另一组)样本检验它是否正确。
需要注意的问题是,两种分布是否相同,一般包 含了参数(均值、方差等)是否相同的问题。如果两 个总体的分布函数形式相同,而参数不同,也将被判 别为概率分布不同。
3. 检验两个总体的分布是否相同的第三种方法: Whitney 秩和检验法 ( 序号和检验法 )
Mann-
问题: 有两个总体的样本观测值 x1,x2,· · · ,xn 与y1,y2 ,· · · ,ym , 可能m n . 两组样本是可以各自独立颠倒顺序的. 检验这 两组样本是否来自同一个总体 (或两组样本的总体分布是 否相同). 同样, 把两组样本放在一起, 按样本观测值的大小重新排 序, 那么每个观测值就有一个序号( 秩 ). 把第一组样本x1, x2,· · · ,xn的序号(秩) 加总起来, 记为 w1 .把第二组样本y1 ,y2 ,· · · ,ym的序号(秩) 加总起来, 记为 w2 . Mann-Whitney U检验的统计量是: U = min {U1, U2 } 式中:
是由 n, m, (显著性水平)所决定的. 威尔可逊 ( Wilcoxon ) 给出了 W 的概率分布表, 对于给定 的显著性水平 , 可以由威尔可逊概率分布表, 依据n, m, 查出 W1 , W2 . 若W W1 或 W W2 , 则拒绝H0: F(x) = G(x) (认为两个 总体分布不同) 反之, 若W1 < W < W2 , 则接受H0: F(x) = G(x) (认为两 个总体分布相同).
(, t1 ], (t1 , t2 ],, (tk 1 ,)
t1 t2 …, tk-1
对随机变量取值数轴的分割
记 pi为总体在第 i 个区间上的概率值, 则有
p1 = P (X t1) = F(t1) p2 = P (t1 < X t2) = F(t2) - F(t1)
……
pk-1 = P (tk-2 < X tk-1) = F(tk-1) - F(tk-2) pk = P (X > tk-1) =1 - F(tk-1)
r r p( xi yi的个数 r) Cm p (1 p)mr
这是一个二项分布, 记为 U ~ B(m, p), 当 xi - yi > 0 时, Ui=1, 当 xi - yi < 0 时, Ui = 0. 如果 F(x) = G(x) 成立, 则上 式中 p 应与 0.5 没有本质区别. 也就是说, 非参数的假设 F(x) = G(x) 的检验问题, 转化成了参数 p = 0.5 是否成立 的检验问题. 于是, 可以根据上一章节5.3中关于参数 p 的 假设检验方法处理了.
根据上表, 算得正负号如下表:
+ + + + + + + + + + + 0 +
此时, 正负号的个数 m =19, 所要检验的参数 p =0.5 , mp10,我们这里按大样本类型来处理. 统计出正号的个数 n+ =12 . 设定随机变量 U , 若xi - yi > 0出现, 令U = 1 , 若xi - yi < 0出 现, 令 U = 0 . 于是可以计算出 z 统计量的值如下:
解:依据关于正负号的二项分布B(m,p)来检验 p 是 否为0.5 , 即 H0 : p = 0.5 ( 即 F(x) = G(x) ) H1 : p 0.5 ( 即 F(x) G(x) ) .
如果接受 p = 0.5 的假设, 就接受F(x) = G(x)的假设, 否则 就拒绝F(x) = G(x)的假设. 这种解决问题的思路是: 把非参数检验的问题转化为参 数检验问题来处理.
§ 6.2 一个总体分布的非参数假设检验
1、检验总体分布是否与猜想的分布 F(x) 相同: 拟合优度 2 检验法 问题: 假设(猜测)总体的概率密度函数为 f (x) ( 若总体 为离散型, 则假设总体的概率分布列为 P {X = xi}= Pi ), 用 一组样本 x1,x2,· · · ,xn来检验假设是否成立. 作法: (1) 零假设H0 :总体的累积概率分布函数为 F(x) , 备择假设H1 :总体的累积概率分布函数不是 F(x). (2) 在数轴上选取 k-1 个分点 t1,t2,· · · , t k-1 , 将数轴上分 为 k 个区间(可以是不等区间):
(1) 小样本情况下, 正负号个数检验法的处理
小样本情况下, 正负号个数检验法的处理, 与 5.3.1 小节 的处理原理相同, 只不过 5.3.1 节是单尾检验, 我们现在要做 双尾检验 (检验两个方向的备择假设). 以计算“xi - yi>0的个数为 r ”的概率为例, 对给定 的, 在假设p = 0.5 (H0假设)的前提下, 按照B(m, p) 的概率 计算公式, 对 r 从小到大, 求累积概率:
例: 用两种激励方法, 分别对同样工种的两个班组(每个班 组 7 个人)进行激励, 测得激励后业绩增长 (%), 数据如表:
两种激励法分别实施于不同组工人的效果 激励法 A 16.10 17.00 16.80 16.50 17.50 18.00 17.20
激励法 B 17.00
16.40
15.80
于是, 我们又假设检验:
H0 : p = 0.5 ( 即 F(x) = G(x) )
H1 : p 0.5 (即 F(x) G(x)) . 对于显著性水平, 只要判断 | z |是否大于 z /2 ( 或者z的显 著性水平是否小于), 就可以得出拒绝还是接受H0: p = 0.5 ( 即 F(x) = G(x) )了.
配对样本:
是按照问题本身的属性,“天然”配对的。也就是说, 不能各自独立地颠倒顺序。
例:用两套问卷测量 20 个管理人员的素质,两套问卷的满 分都是200分,两套问卷测得的结果如表:
卷A
卷B
147 150 152 148
146 151 154 147
155
152
146
147
149
148
148
146
151
z
up 12 19 0.5 1.1473 p (1 p ) 0.5 0.5 / 19 m
若取=0.05, 查表得z /2=1.96, 有-1.96 = - z /2 < z =1.1473 < z /2 = 1.96, 故接受 H0 : p = 0.5 , 即 接受 F(x) = G(x), 也就是两套问卷的结果的分布是相同的. 正负号检验法在下面问题中常见到应用: 如,消费者对两种 包装的评分, 或对两种产品品牌的评分; 学生对两门不同 课程的成绩的反映 ( 评分 ), 企业对两种政策的反映(评分) 等等, 都存在两个总体的分布是否相同的检验问题. 但有些问题是不适宜使用正负号检验法----“独立样本” 的问题. 如下例子。
相关文档
最新文档