卡方检验和非参数检验43页PPT
合集下载
非参数统计讲义四卡方检验课件
。
确定研究问题
收集相关数据,确保数据质量。
数据收集
对数据进行整理,确保数据符合卡方检验的要求。
数据整理
将数据整理成交叉表形式,以便进行卡方检验。
制作交叉表
根据交叉表中的数据,计算卡方值。
计算卡方值
根据卡方值和自由度,计算p值,判断结果是否具有统计学显著性。
判断显著性
非参数统计讲义四卡方检验课件
目 录
非参数统计概述卡方检验基本概念卡方检验的步骤与公式卡方检验的案例分析卡方检验的优缺点与注意事项
非参数统计概述
参数统计依赖于对数据分布的假设,如正态分布、泊松分布等,而非参数统计则不依赖于任何分布假设。
非参数统计和参数统计都是统计学的重要组成部分,它们在某些情况下可以相互补充。
判断两个分类变量是否独立独立性检验用于检验两个分类变量是否独立。通过比较两个分类变量的实际观测频数与期望频数,可以判断两个变量之间是否存在关联性。这种方法常用于医学、生物学、社会学等领域,如判断两种药物是否具有协同作用、两种疾病是否具有相关性等。公式:$\chi^{2} = \sum \frac{(O{ij} - E{ij})^{2}}{E_{ij}}$解释:其中$O{ij}$表示观测频数,$E{ij}$表示期望频数。
它通过计算卡方统计量,评估观测频数与期望频数之间的差异是否具有统计学显著性。
卡方检验基于假设检验的思想,通过比较实际观测频数与期望频数来推断变量之间的关系。
它通过卡方统计量来衡量实际观测频数与期望频数之间的差异程度,并根据卡方分布计算出p值,从而判断差异是否具有统计学显著性。
卡方检验的步骤与公式
联系
区别
探索性数据分析
在缺乏先验知识的情况下,非参数统计可以帮助我们了解数据的分布和特点。
确定研究问题
收集相关数据,确保数据质量。
数据收集
对数据进行整理,确保数据符合卡方检验的要求。
数据整理
将数据整理成交叉表形式,以便进行卡方检验。
制作交叉表
根据交叉表中的数据,计算卡方值。
计算卡方值
根据卡方值和自由度,计算p值,判断结果是否具有统计学显著性。
判断显著性
非参数统计讲义四卡方检验课件
目 录
非参数统计概述卡方检验基本概念卡方检验的步骤与公式卡方检验的案例分析卡方检验的优缺点与注意事项
非参数统计概述
参数统计依赖于对数据分布的假设,如正态分布、泊松分布等,而非参数统计则不依赖于任何分布假设。
非参数统计和参数统计都是统计学的重要组成部分,它们在某些情况下可以相互补充。
判断两个分类变量是否独立独立性检验用于检验两个分类变量是否独立。通过比较两个分类变量的实际观测频数与期望频数,可以判断两个变量之间是否存在关联性。这种方法常用于医学、生物学、社会学等领域,如判断两种药物是否具有协同作用、两种疾病是否具有相关性等。公式:$\chi^{2} = \sum \frac{(O{ij} - E{ij})^{2}}{E_{ij}}$解释:其中$O{ij}$表示观测频数,$E{ij}$表示期望频数。
它通过计算卡方统计量,评估观测频数与期望频数之间的差异是否具有统计学显著性。
卡方检验基于假设检验的思想,通过比较实际观测频数与期望频数来推断变量之间的关系。
它通过卡方统计量来衡量实际观测频数与期望频数之间的差异程度,并根据卡方分布计算出p值,从而判断差异是否具有统计学显著性。
卡方检验的步骤与公式
联系
区别
探索性数据分析
在缺乏先验知识的情况下,非参数统计可以帮助我们了解数据的分布和特点。
非参数假设检验.pptx
取 1。.据9 此,我们可以用参数 的泊1松.9分布来
计算每分钟内通过收费站的汽车为0辆、1辆、2辆、3 辆、4辆或更多的概率。
第12页/共43页
e 各概率乘以观测总数n=100,便得到理论频数 ,具体结果见下表: i ei
计算 2统计量的值:
2 (14.96 10)2 (28.42 26)2 (27.0 35)2
H0 :汽车通过收费站的辆数服从泊松分布; H1 :不服从泊松分布。
观测值分为5组,且有 u0 10,u1 26,u2 35,u4 5
第11页/共43页
回忆泊松分布
P{X x} e x , x 0,1, 2,
x!
其中 为泊松分布的期望值,是未知的,需要用样
本观测值来估计。由于100分钟内观测到190辆汽车, 所以平均每分钟观测到190/100=1.9辆汽车,故
第9页/共43页
计算 2统计量的值:
2 6 (ui ei )2
i1
ei
(27 25)2 (18 25)2 (15 25)2 (24 25)2
25
25
25
25
(36 25)2 (30 25)2 12
25
25
在本例的情况下, 统2 计量的自由度为m-1=6-1=5。
第8页/共43页
解:本例中的观测值以月为组,共分为m=6组,
每 月的销售台数即为观测的频v数i ,观测的总次
数为n=150。现欲检验是否服从(离散的)均匀 分布,即每月的销售量是否为
ei
nPi
150 6
25(台),
Pi
1 6
,i
1,
,6
为此,设
H0 :洗衣机销售量服从均匀分布;
H1 :并不服从均匀分布;
计算每分钟内通过收费站的汽车为0辆、1辆、2辆、3 辆、4辆或更多的概率。
第12页/共43页
e 各概率乘以观测总数n=100,便得到理论频数 ,具体结果见下表: i ei
计算 2统计量的值:
2 (14.96 10)2 (28.42 26)2 (27.0 35)2
H0 :汽车通过收费站的辆数服从泊松分布; H1 :不服从泊松分布。
观测值分为5组,且有 u0 10,u1 26,u2 35,u4 5
第11页/共43页
回忆泊松分布
P{X x} e x , x 0,1, 2,
x!
其中 为泊松分布的期望值,是未知的,需要用样
本观测值来估计。由于100分钟内观测到190辆汽车, 所以平均每分钟观测到190/100=1.9辆汽车,故
第9页/共43页
计算 2统计量的值:
2 6 (ui ei )2
i1
ei
(27 25)2 (18 25)2 (15 25)2 (24 25)2
25
25
25
25
(36 25)2 (30 25)2 12
25
25
在本例的情况下, 统2 计量的自由度为m-1=6-1=5。
第8页/共43页
解:本例中的观测值以月为组,共分为m=6组,
每 月的销售台数即为观测的频v数i ,观测的总次
数为n=150。现欲检验是否服从(离散的)均匀 分布,即每月的销售量是否为
ei
nPi
150 6
25(台),
Pi
1 6
,i
1,
,6
为此,设
H0 :洗衣机销售量服从均匀分布;
H1 :并不服从均匀分布;
第九章 非参数检验 PPT课件
2)应用实例
(1)为了检查一颗骰子是否均匀,把它掷了120次,得结果如下:
出现点数 1 2
345
6
频数
15 15 20 21 23 26
现检验各点出现的频数是否服从均匀分布。该数据文件的文件 名为"Dice.sav"。
按照下面的步骤进行操作:
·在数据编辑器中打开该数据文件:
·按照Analyze→Nonparametric Tests→Chi-Square…的 顺序选择菜单项,打开"Chi-Square Test"对话框:
·单击"OK"按钮,生成表3和表4。
从表3中可以看出,"Expected N"列中显示了所指定的各组数据 的期望值。
表4中,用逼近法求得的显著性概率大于0.05,所以,可以认为电 话接错次数服从泊松分布。
9.1.2 二项检验
1.基本数学原理 二项检验属于拟合优度型检验,该检验法适用于只能划分为两类 的数据总体,如:男生和女生、小于或等于某值的数和大于该值的 数。对于取自该总体的所有可能结果,要么是这两类中的某一类, 要么是另一类,不可能同时属于对立分类中的两类,称具有这种分 类特征的数据所服从的分布为二项分布。
·Test Variable列表框 在该列表框中输入变量名,对应变 量的数据用作检验分析。
·Define Dichotomy方框 在该方框中进行选择,确定进行 二项检验的数据获取方式。
》Get from data单选钮 为默认选项。选择此项,从原 数据文件获取分类数据。
》Cut point单选钮 选择此项,在后面的文本框中输入 一个数值,将以该数值为界将原数据分为两组,即小于或等 于该数值的数据分为一组,大于该数值的数据分为一组。
第3讲 单样本非参数统计—卡方检验 PPT课件
3.3 卡方检验的SPSS软件实现
(1)输入例子中的数据,如图所示。
切记要加权!
卡检验的SPSS操作
勾选“值”
输入2.8, 点“添加”
改成1,点“添加”, 依次进行
1个2.8,6个1,最后点 OK!
得到卡方检验结果,分两部分
1.00 2.00 3.00 4.00 5.00 6.00 7.00 Total
2
2
2 1
(k 1)
中,拒绝零假设,即总体不服从指定分布 F(X )
即 2 的概率P值??显著性水平
3.2 卡方检验的例题
例:医学家研究心脏病人猝死人数与日期的关系 时发现,一周之中星期一心脏病人猝死者较多, 其他日子基本相同。每天的比例近似为2.8:1: 1:1:1:1:1.
现在收集到168个观察数据,其中星期一至星 期日的死亡人数分别为:55,23,18,11,26, 20,15。
(1)建立零假设和备择假设
H0 :总体分布函数为 F(x); H1 :总体分布函数不为 F(x)。
分布函数和密度函数的区别知道吧?
(2)构造和计算统计量
◆把实轴 (,分) 成 k 个不相交的区间
(, a1 ], (a1, a2 ], ,..., (ak1, )
◆设样本观察值 x1, x2 ,..., xn落入每个区间的实际频数为 f i
则实际频率为 fi
n
◆当零假设成立时,样本值落在每个区间的概率 pi 可以由 分布函数 F(x精) 确计算,则每个区间的理论频数为 npi
◆当假设成立时,理论频数 npi与实际频数 f i应该相差很小
◆构造统计量 2 k ( fi npi )2
i 1
npi
(3)设定显著性水平和确定否定域
《卡方检验》课件
制作交叉表
确定交叉表的行列变量
根据研究目的和内容,选择合适的行列变量,构建交叉表。
制作交叉表
将分组后的数据按照行列变量制作成交叉表,以便于进行卡 方检验。
计算理论频数
确定期望频数
根据交叉表中的数据,结合各组 的概率计算期望频数。
计算理论频数
根据期望频数和实际频数计算理 论频数,为后续的卡方检验提供 依据。
计算卡方值
计算卡方值
使用卡方检验的公式计算卡方值,该 值反映了实际频数与理论频数的差异 程度。
自由度的确定
在计算卡方值时,需要确定自由度, 自由度通常为行数与列数的减一。
显著性水平的确定
选择显著性水平
显著性水平是衡量卡方值是否显著的指标,通常选择0.05或0.01作为显著性水 平。
判断显著性
根据卡方值和自由度,结合显著性水平判断卡方检验的结果是否显著,从而得 出结论。
3.84、6.63等),可以确定观测频数与期望频数之间的差异是否具有统
计学显著性。
02
卡方检验的步骤
收集数据
确定研究目的
制定调查问卷或收集程序
在开始收集数据之前,需要明确研究 的目的和假设,以便有针对性地收集 相关数据。
根据研究目的和内容,制定合适的调 查问卷或建立数据收集程序,确保数 据的完整性和准确性。
详细描述
例如,在市场调研中,我们可以通过卡方检验来分析不同年龄段、性别、职业等 人群对于某产品的态度或购买意愿是否有显著差异,从而为产品定位和营销策略 提供依据。
实际案例二:医学研究中的应用
总结词
在医学研究中,卡方检验常用于病例 对照研究和队列研究中的分类变量关 联性分析。
详细描述
例如,在病例对照研究中,我们可以 通过卡方检验来比较病例组和对照组 在某些基因型、生活方式或暴露因素 上的分布是否有统计学差异,从而探 讨病因或危险因素。
医学统计方法之卡方检验PPT课件
3、查界值表,确定P值,做出推断结论
查χ2界值表,υ=6,χ20.05(6)=12.59, χ2 > χ20.05(1) ,则 P<0.05,在α=0.05的水准下,拒绝H0,认为三个不同地区 的人群血型分布总体构成比有差别。
.
38
二、多个样本率间多重比较
行×列表χ2检验的结果说明差异有统计学意义,需作两 两比较时,先调整α值,再进行率的两两比较。
配对检验公式推导:
bc
(+,)和(,+)两个格子中的理论频数均为
2
b c 40时
2
(AT)2(b b c )2 2(c b c)22
T
bc
bc
2
2
(b c)2
bc
~ 2 分布
同理可得b c 40时
1
校正公式: 2 (| A T | 0.5)2 (| b c | 1)2
表8-5 两种培养基的培养结果
B培养基
A培养基
+
-
合计
+
48
24
72
-
20
106
126
合计
68
130
198
A 培养基 B培养基
痰标本 1 2 3 4 5 6 7 8 9 10 11 12 13 14
结果统计
A培养基 + + + + + + + + + + -
B培养基 + + + + + + + -
合计
145 109 254 57.09
1.建立检验假设并确定检验水准
第10章--卡方检验-(Chi-PPT课件
备择假设:两变量之间有关联或差异显著,一般用文 字叙述,不用统计符号。
例题:某学校对学生的课外活动内容进行调查,结果 整理成下表:
-
18
应用举例一
女性 男性 总和
自我知觉
总和
过轻
过重
419
1995
2414
(786.78)(1627.22)
959
855
1814
(591.22)(1222.78)
1378
1995 1938.67
56.33 3173.41
1.37
5816 5816
0
2297.1 3
df=3-1=2 查表,0.05水平上临界值为5.99,故……
df=3-1=2 查表, 0.01水平上临界值为9.21
-
15
三、卡方独立性检验
(一)适用材料 主要用于两个或两个以上因素多项分类的计数资料
分析。如果要研究的两个自变量之间是否具有独 立性或有无关联或有无“交互作用”的存在,就 要应用卡方独立性检验。 如果两个子变量是独立的,无关联的,就意味着对 其中一个自变量来说,另一个自变量的多项分类 次数上的变化是在取样误差的范围之内。假如两 个因素是非独立,则称两变量有交互作用。
第十二章 非参数检验
-
1
一、参数与非参数检验
参数检验 用于等比/等距型数据 参数检验的前提:正态分布和方差同质
非参数检验 不用对参数进行假设 对分布较少有要求,也叫distributionfree tests 用于名义/顺序型数据
-
2
参数统计和非参数统计优缺点
• 参数统计 优点:
对资料的分析利用充分 统计分析的效率高
于等与临界值才显著),使用9或3均可 • 接受虚无假设
例题:某学校对学生的课外活动内容进行调查,结果 整理成下表:
-
18
应用举例一
女性 男性 总和
自我知觉
总和
过轻
过重
419
1995
2414
(786.78)(1627.22)
959
855
1814
(591.22)(1222.78)
1378
1995 1938.67
56.33 3173.41
1.37
5816 5816
0
2297.1 3
df=3-1=2 查表,0.05水平上临界值为5.99,故……
df=3-1=2 查表, 0.01水平上临界值为9.21
-
15
三、卡方独立性检验
(一)适用材料 主要用于两个或两个以上因素多项分类的计数资料
分析。如果要研究的两个自变量之间是否具有独 立性或有无关联或有无“交互作用”的存在,就 要应用卡方独立性检验。 如果两个子变量是独立的,无关联的,就意味着对 其中一个自变量来说,另一个自变量的多项分类 次数上的变化是在取样误差的范围之内。假如两 个因素是非独立,则称两变量有交互作用。
第十二章 非参数检验
-
1
一、参数与非参数检验
参数检验 用于等比/等距型数据 参数检验的前提:正态分布和方差同质
非参数检验 不用对参数进行假设 对分布较少有要求,也叫distributionfree tests 用于名义/顺序型数据
-
2
参数统计和非参数统计优缺点
• 参数统计 优点:
对资料的分析利用充分 统计分析的效率高
于等与临界值才显著),使用9或3均可 • 接受虚无假设
第十讲-1 非参数检验-卡方检验
2 2
2
A:实际频数,表中实际发生的阳性或阴性频数; T:理论频数,按某H0假设计算理论上的阳性或阴性频数
TRC
nR nC n
TRC,第R行第C列的理论频数;nR,相应行 的合计, nC,相应列的合计,n,总例数
8
表7-1两组疗法降低颅内压有效率(%)
疗法 试验组 对照组 合计 有效人数 99(90.48) 75(83.52) 174 无效人数 合计 有效率 5(13.52) 104 95.2 21(12.48) 96 78.1 26 200 87.0
卡方检验
(chi-square test)
分类数据组间比较的假设检验
计数资料组间的比较
1
本讲主要内容
第一节
2
卡方检验的基本思想
第二节
第三节
独立四格表资料的χ2检验*
配对四格表资料的χ2检验*
第四节
第五节
行×列表资料的χ2检验*
多个样本率间的多重比较
第六节
卡方检验总结
2
目的:
推断两个总体率或构成比之间有无差别 多个总体率或构成比之间有无差别 多个样本率间的多重比较
两个分类变量之间有无关联性
频数分布拟合优度的检验。
检验统计量: 2
资料类型:计数资料
理论基础:卡方分布
3
第一节
检验的基本思想
2
4
1. χ2 分布
1875年 F. Helmet提出χ 2统计量,设Xi为 来自正态总体的连续型变量。 xi 2 2 2 i ( ) ui
f ( ) 2 ( / 2) 2
排放 口 Total
甲排放口 乙排放口
Chi-Square Tests Value .989b .343 .952 46 df 1 1 1 Asy mp. Sig. (2-sided) .320 .558 .329 Exact Sig. (2-sided) Exact Sig. (1-sided)
2
A:实际频数,表中实际发生的阳性或阴性频数; T:理论频数,按某H0假设计算理论上的阳性或阴性频数
TRC
nR nC n
TRC,第R行第C列的理论频数;nR,相应行 的合计, nC,相应列的合计,n,总例数
8
表7-1两组疗法降低颅内压有效率(%)
疗法 试验组 对照组 合计 有效人数 99(90.48) 75(83.52) 174 无效人数 合计 有效率 5(13.52) 104 95.2 21(12.48) 96 78.1 26 200 87.0
卡方检验
(chi-square test)
分类数据组间比较的假设检验
计数资料组间的比较
1
本讲主要内容
第一节
2
卡方检验的基本思想
第二节
第三节
独立四格表资料的χ2检验*
配对四格表资料的χ2检验*
第四节
第五节
行×列表资料的χ2检验*
多个样本率间的多重比较
第六节
卡方检验总结
2
目的:
推断两个总体率或构成比之间有无差别 多个总体率或构成比之间有无差别 多个样本率间的多重比较
两个分类变量之间有无关联性
频数分布拟合优度的检验。
检验统计量: 2
资料类型:计数资料
理论基础:卡方分布
3
第一节
检验的基本思想
2
4
1. χ2 分布
1875年 F. Helmet提出χ 2统计量,设Xi为 来自正态总体的连续型变量。 xi 2 2 2 i ( ) ui
f ( ) 2 ( / 2) 2
排放 口 Total
甲排放口 乙排放口
Chi-Square Tests Value .989b .343 .952 46 df 1 1 1 Asy mp. Sig. (2-sided) .320 .558 .329 Exact Sig. (2-sided) Exact Sig. (1-sided)
非参数统计讲义四卡方检验课件
3. 计算卡方统计量,比较期望频数与实际频数的差异。
结果解释:通过卡方检验,判断教育程度与收入水平之间是否存在关联性。
05
卡方检验与其他统计方法 的比较
与参数检验的比较
数据要求不同
参数检验要求数据服从特定的概率分布(如正态分布),而卡方检验对数据分布没有严 格要求。
使用场景不同
参数检验主要用于估计和检验总体参数,而卡方检验主要用于分类数据的比较和分析。
在弹出的对话框中,选择 “卡方”选项。
在菜单栏上选择“数据 ”-“数据分析”。
在弹出的对话框中,输入 期望值和实际频数,点击 “确定”按钮。
Stata软件实现卡方检验的步骤
打开Stata软件,导入数据。
在命令行窗口中输入“tabulate变量1 变量2”,其中变量1和变量2是你 要进行卡方检验的变量。
卡方检验结果受样本大小 和期望频数的影响,应注 意控制这些因素
卡方检验与Pearson相关系数的区别
卡方检验基于观察频数和期望频数,而 Pearson相关系数基于变量的测量值
卡方检验的结果通常以卡方统计量和卡方值表示,而 Pearson相关系数则以数值表示,范围在-1到1之间
卡方检验用于检验分类变量之间的关联程度, 而Pearson相关系数用于衡量连续变量之间的 线性关系
独立性检验
检验两个分类变量是否独立,如吸烟与饮酒习惯是否 独立。
卡方检验的基本思想
01
通过比较实际观测频数与期望频数,评估观测频数与期望频数 之间的差异程度。
02
利用卡方统计量衡量实际观测频数与期望频数之间的偏离程度
,通过卡方分布计算出概率值。
根据概率值大小判断假设是否成立,从而得出结论。
03
02
结果解释:通过卡方检验,判断教育程度与收入水平之间是否存在关联性。
05
卡方检验与其他统计方法 的比较
与参数检验的比较
数据要求不同
参数检验要求数据服从特定的概率分布(如正态分布),而卡方检验对数据分布没有严 格要求。
使用场景不同
参数检验主要用于估计和检验总体参数,而卡方检验主要用于分类数据的比较和分析。
在弹出的对话框中,选择 “卡方”选项。
在菜单栏上选择“数据 ”-“数据分析”。
在弹出的对话框中,输入 期望值和实际频数,点击 “确定”按钮。
Stata软件实现卡方检验的步骤
打开Stata软件,导入数据。
在命令行窗口中输入“tabulate变量1 变量2”,其中变量1和变量2是你 要进行卡方检验的变量。
卡方检验结果受样本大小 和期望频数的影响,应注 意控制这些因素
卡方检验与Pearson相关系数的区别
卡方检验基于观察频数和期望频数,而 Pearson相关系数基于变量的测量值
卡方检验的结果通常以卡方统计量和卡方值表示,而 Pearson相关系数则以数值表示,范围在-1到1之间
卡方检验用于检验分类变量之间的关联程度, 而Pearson相关系数用于衡量连续变量之间的 线性关系
独立性检验
检验两个分类变量是否独立,如吸烟与饮酒习惯是否 独立。
卡方检验的基本思想
01
通过比较实际观测频数与期望频数,评估观测频数与期望频数 之间的差异程度。
02
利用卡方统计量衡量实际观测频数与期望频数之间的偏离程度
,通过卡方分布计算出概率值。
根据概率值大小判断假设是否成立,从而得出结论。
03
02
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
于是在给定显著性水平下,若说明总体X的真实分布函数与F(x)间存在显著差
异;否则接受H0,即可以认为两者在水平下并无显著差
异。
6
某厂有一台经常需要维修的设备,该设备中有一个易损坏
的重负荷轴承,设备故障的主要原因是轴承损坏。为了制 定该设备的维修计划和维修预算,需要了解该轴承的寿命 分布。下表给出了100个轴承寿命的观察数据,问:该轴 承寿命是否服从正态分布?
2
非参数检验概述
在总体分布形式已知条件下未知参数检验问题。 但实际问题中总体的分布形式往往是未知的,虽 然根据中心极限定理可以有相当的把握认为大多 数经济变量服从或近似服从正态分布,但有时为 了使所做的统计推断更具说服力,就需要对总体 的分布形式进行检验。
3
§10.1 总体分布的 检2 验
检验的基本原理: (1) 设x1, x2, … , xn为总体X的一组样本观察值,F(x)
使用卡方( 2 )检验的基本思路为:
(1) 确定统计量为
2
(fo fe)2
f 表格中所有元 e
其中 f o 为列联表中特定单元的观测频数,f e 为列联表中特定
单元的期望频数,因此这里的统计量 2 是观测频数和期望
频数差的平方除以每单元的期望频数,并对表中的所有单 元格取和求得;
12
(2) 可以证明上述统计量 2 近似服从自由度为1的 分2 布,因此在显
Pi=P{ai <X≤ ai+1}= F(ai+1)-F(ai )
4
为以F(x)为分布函数的随机变量在区间 (ai, ai+1 上 取值的概率,i =1,2,…, k。则当H0为真时,由贝努 里定理,当n充分大时,n次独立重复试验结果的 实fi际n 频率 与其概率Pi之间的差异并不显著,于是 显然可以用统计量来刻画它们间总的差异的大小。
卡方检验和非参数检验
第10章 卡方检验和非参数检验
本章教学内容:
总体分布的卡方检验; 两个比例差异的卡方检验(独立样本); 两个以上比例差异的卡方检验(独立样本); 独立性的卡方检验; 两个比例差异的McNEMAR检验(相关样本); 两个独立总体的非参数检验(Wilcoxon秩和检验); 单因素方差分析的非参数检验(Kruskal-Wallis秩检验)
著性水平下,决策规则为: 如果2 2 (1) ,拒绝 H 0 否则,接受 H 0 。 为了计算任意单元期望频数,必须知道如果原假设为真,那么两项
128 168 174 155 116
7
解:由表中数据,用Excel可求得
x =120.95, S2=40.582 ,故可作原假设
H0:X~ N (120,402) 将实轴划分为如下7个互不相交的区间。用Excel 的FREQUENCY函数计算数据落在各区间内的频 数,用NORMDIST函数求出各理论频数nPi ,统 计量的计算如表所示。
其中nPi为理论频数。其中nPi为理论频数。当H0为 真时,下式的值就应当较小
2 k ( fi nPi )2
i1
nPi
5
(3) 可以证明,当n充分大时(n≥50),若H0为真,则统计量
2 k ( fi nPi )2
i1
nPi
近似服从(k -r -1)分布。其中r为分布F(x)中待定参数的个数。
行变量
类 1(正向) 类 2(反向) 总计
组一
x1 n1 x1 n1
列变量
组二
x2 n2 x2 n2
总计
X , ( x1 x2)
n X n, ( n1 n2)
11
为了检验组一样本有关类1的比例是否等于第二组样本有关 类1的比例,即假设检验为: 原假设为两比例之间无显著差异: H0 : p1 p2 备择假设为两比例之间有差异: H1 : p1 p2
9
取显著性水平 = 0.25 (由于原假设H0是我们希望
得到的结果,为使检验结论更具说服力,控制的
重点应是与原假设H0不真而接受H0的概率,故
应取的稍大些)。本例中k = 7,r = 2,k –r -1 = 4。
2 0 .9 9 6 1 0 2 .2 5(4 ) 5 .3 8 5
故在水平 = 0.25下接受原假设H0,即可认为该轴
为某一已知分布的分布函数,1, 2, … , r是F(x)的r
个待定参数,分别是r个参数的点估计,以分别代替
1, 2, … ,r ,作原假设
H0:总体X的分布函数为F(x) (2) 将F(x)的定义域划分为k个互不相交的区间 (ai , ai+1,i =1,2,…, k;记fi为样本观察值x1, x2, … , xn落在 第个区间(ai ,ai+1 内的频数,并记
75
144 105
192 149 128 111 127 91
103 145 113 114
123 136 8
190 181 121 158 83
223 93
72
120 130 103 144 89
113 60
76
176
94
190 139 140 151 145 142 118 185 140
59
118 212 117 52
承的使用寿命服从N (120,402)分布。
10
§10.2 比例差异的 检2 验(独立样本)
1. 两个比例差异的检验
前面,我们研究了两个比例的Z检验。这部分从不同角度 检验数据。假设检验过程使用近似卡方( )分2 布的检验 数据。
如果想要比较两个独立样本组的分类变量,可以做两维 的列联表,显示每组的第1类(正向类,如“成功”, “是”等)和第2类(反向类,如“失败”,“否”等) 出现的频数,如表所示
8
区间 (- , 70 (70, 90 (90, 110 (110, 130 (130, 150 (150, 170 (170, +) 合计
fi
nPi
11
10.56
10
12.10
18
17.47
21
19.74
19
17.47
10
12.10
11
10.56
100
100
( fi nPi )2 nPi 0.0183 0.3645 0.0161 0.0804 0.1340 0.3645 0.0183 0.9961
107 155 105 148 49
143 120 115 142 87
103 141 118 168 123 105 80
107 172 122
89
69
97
135 92
31
68
88
95
146
99
121 104 63
12
57
120 139 107 156
167 136 173 136 179 129 88
异;否则接受H0,即可以认为两者在水平下并无显著差
异。
6
某厂有一台经常需要维修的设备,该设备中有一个易损坏
的重负荷轴承,设备故障的主要原因是轴承损坏。为了制 定该设备的维修计划和维修预算,需要了解该轴承的寿命 分布。下表给出了100个轴承寿命的观察数据,问:该轴 承寿命是否服从正态分布?
2
非参数检验概述
在总体分布形式已知条件下未知参数检验问题。 但实际问题中总体的分布形式往往是未知的,虽 然根据中心极限定理可以有相当的把握认为大多 数经济变量服从或近似服从正态分布,但有时为 了使所做的统计推断更具说服力,就需要对总体 的分布形式进行检验。
3
§10.1 总体分布的 检2 验
检验的基本原理: (1) 设x1, x2, … , xn为总体X的一组样本观察值,F(x)
使用卡方( 2 )检验的基本思路为:
(1) 确定统计量为
2
(fo fe)2
f 表格中所有元 e
其中 f o 为列联表中特定单元的观测频数,f e 为列联表中特定
单元的期望频数,因此这里的统计量 2 是观测频数和期望
频数差的平方除以每单元的期望频数,并对表中的所有单 元格取和求得;
12
(2) 可以证明上述统计量 2 近似服从自由度为1的 分2 布,因此在显
Pi=P{ai <X≤ ai+1}= F(ai+1)-F(ai )
4
为以F(x)为分布函数的随机变量在区间 (ai, ai+1 上 取值的概率,i =1,2,…, k。则当H0为真时,由贝努 里定理,当n充分大时,n次独立重复试验结果的 实fi际n 频率 与其概率Pi之间的差异并不显著,于是 显然可以用统计量来刻画它们间总的差异的大小。
卡方检验和非参数检验
第10章 卡方检验和非参数检验
本章教学内容:
总体分布的卡方检验; 两个比例差异的卡方检验(独立样本); 两个以上比例差异的卡方检验(独立样本); 独立性的卡方检验; 两个比例差异的McNEMAR检验(相关样本); 两个独立总体的非参数检验(Wilcoxon秩和检验); 单因素方差分析的非参数检验(Kruskal-Wallis秩检验)
著性水平下,决策规则为: 如果2 2 (1) ,拒绝 H 0 否则,接受 H 0 。 为了计算任意单元期望频数,必须知道如果原假设为真,那么两项
128 168 174 155 116
7
解:由表中数据,用Excel可求得
x =120.95, S2=40.582 ,故可作原假设
H0:X~ N (120,402) 将实轴划分为如下7个互不相交的区间。用Excel 的FREQUENCY函数计算数据落在各区间内的频 数,用NORMDIST函数求出各理论频数nPi ,统 计量的计算如表所示。
其中nPi为理论频数。其中nPi为理论频数。当H0为 真时,下式的值就应当较小
2 k ( fi nPi )2
i1
nPi
5
(3) 可以证明,当n充分大时(n≥50),若H0为真,则统计量
2 k ( fi nPi )2
i1
nPi
近似服从(k -r -1)分布。其中r为分布F(x)中待定参数的个数。
行变量
类 1(正向) 类 2(反向) 总计
组一
x1 n1 x1 n1
列变量
组二
x2 n2 x2 n2
总计
X , ( x1 x2)
n X n, ( n1 n2)
11
为了检验组一样本有关类1的比例是否等于第二组样本有关 类1的比例,即假设检验为: 原假设为两比例之间无显著差异: H0 : p1 p2 备择假设为两比例之间有差异: H1 : p1 p2
9
取显著性水平 = 0.25 (由于原假设H0是我们希望
得到的结果,为使检验结论更具说服力,控制的
重点应是与原假设H0不真而接受H0的概率,故
应取的稍大些)。本例中k = 7,r = 2,k –r -1 = 4。
2 0 .9 9 6 1 0 2 .2 5(4 ) 5 .3 8 5
故在水平 = 0.25下接受原假设H0,即可认为该轴
为某一已知分布的分布函数,1, 2, … , r是F(x)的r
个待定参数,分别是r个参数的点估计,以分别代替
1, 2, … ,r ,作原假设
H0:总体X的分布函数为F(x) (2) 将F(x)的定义域划分为k个互不相交的区间 (ai , ai+1,i =1,2,…, k;记fi为样本观察值x1, x2, … , xn落在 第个区间(ai ,ai+1 内的频数,并记
75
144 105
192 149 128 111 127 91
103 145 113 114
123 136 8
190 181 121 158 83
223 93
72
120 130 103 144 89
113 60
76
176
94
190 139 140 151 145 142 118 185 140
59
118 212 117 52
承的使用寿命服从N (120,402)分布。
10
§10.2 比例差异的 检2 验(独立样本)
1. 两个比例差异的检验
前面,我们研究了两个比例的Z检验。这部分从不同角度 检验数据。假设检验过程使用近似卡方( )分2 布的检验 数据。
如果想要比较两个独立样本组的分类变量,可以做两维 的列联表,显示每组的第1类(正向类,如“成功”, “是”等)和第2类(反向类,如“失败”,“否”等) 出现的频数,如表所示
8
区间 (- , 70 (70, 90 (90, 110 (110, 130 (130, 150 (150, 170 (170, +) 合计
fi
nPi
11
10.56
10
12.10
18
17.47
21
19.74
19
17.47
10
12.10
11
10.56
100
100
( fi nPi )2 nPi 0.0183 0.3645 0.0161 0.0804 0.1340 0.3645 0.0183 0.9961
107 155 105 148 49
143 120 115 142 87
103 141 118 168 123 105 80
107 172 122
89
69
97
135 92
31
68
88
95
146
99
121 104 63
12
57
120 139 107 156
167 136 173 136 179 129 88