25列联表的独立性检验

合集下载

高中数学 新人教A版选择性必修第三册 第八章 8.3列联表与独立性检验 课件

高中数学 新人教A版选择性必修第三册 第八章 8.3列联表与独立性检验 课件

【解析】由2×2列联表得a=4,b=8,c=16,d=2,n=30,代入公式得χ2=
30×(4×2-8×16)2 20×10×12×18
=10.
答案:10
探究点二 独立性检验 【典例2】电视台“国家品牌计划”栏目组为了做好新能源汽车的品牌推广,利用 网络平台对年龄(单位:岁)在[20,60]内的人群进行了调查,并从参与调查者中 随机选出600人,把这600人分为对新能源汽车比较关注和不太关注两类,并制成 如下表格:
【解析】(1)根据题意,填充2×2列联表如下:
由χ2=(a+b)(cn+(da)d-(bac+)c2)(b+d) =600(40204×02×0500×-39106×0×211050)2 ≈13.19>6.635=x0.01, 根据小概率值α=0.01的独立性检验,我们推断H0不成立,即认为性别与对新能 源汽车关注度有关,此推断犯错误的概率不大于0.01.
(2)根据(1),男女比例为2∶1,6人中女性的人数为2人,男性为4人,
记3人中女性的人数为X,X=0,1,2, P(X=0)=CC3436 =51 =0.2; P(X=1)=CC12 C36 42 =35 =0.6; P(X=2)=CC22 C36 41 =15 =0.2;
X的分布列如下:
X
0
课堂素养达标
1.以下关于独立性检验的说法中,错误的是( ) A.独立性检验依据小概率原理 B.独立性检验得到的结论一定正确 C.样本不同,独立性检验的结论可能有差异 D.独立性检验不是判定两分类变量是否相关的唯一方法
【解析】选B.根据独立性检验的原理可知得到的结论是错误的情况是小概率事 件,但并不一定是准确的.
主题2 独立性检验 依据小概率值α=0.01的χ2独立性检验,分析主题1中的抽样数据,能否据此推断 认为作业量的大小与性别有关?

高考数学一轮复习列联表与独立性检验

高考数学一轮复习列联表与独立性检验

.
(+)(+)(+)(+)
α
0.100
0.050
0.010

2.706
3.841
6.635
目录
解 (2)零假设为H0:甲、乙两城之间的长途客车是否准点与客车所属公司无
关,列联表如下表所示:
公司
班次是否准点
合计
准点班次数
未准点班次数
A
240
20
260
B
210
30
240
合计
450
50
的把握说变量X,Y有关系(填百分数).

解析:因为χ2≈4.328>3.841=x0.05,所以在犯错误的概率不超过0.05的前提下
认为变量X,Y有关系.所以最大有95%的把握说变量X,Y有关系.
答案:95%
目录
02
目录

分类变量与列联表
1.(多选)根据如图所示的等高堆积条形图,下列叙述正确的是
据中没有发现足够的证据支持结论“X与Y有关系”.
目录

某市政府调查市民收入增减与旅游愿望的关系时,采用独立性检验法抽查了3
000人,计算得χ2=6.023,则市政府断言市民收入增减与旅游愿望有关系的可
信程度是(
A.90%

B.95%
C.99%
D.99.5%
解析:B 由临界值表,得6.023>3.841=x0.05,所以可断言市民收入增减与旅
(2)根据公式χ2=
(− )2
计算;
(+)(+)(+)(+)
(3)比较χ2与临界值的大小关系,作统计推断.
目录

2025年高考数学一轮复习-第十章-第三节-数据分析-列联表与独立性检验【课件】

2025年高考数学一轮复习-第十章-第三节-数据分析-列联表与独立性检验【课件】
典例3 某教育机构为了研究成年人具有大学专科以上学历(包括大学专科)和对待教
育改革态度的关系,随机抽取了392名成年人进行调查,所得数据如下表所示:
积极支持教育改革
不太赞成教育改革
合计
大学专科以上学历
39
157
196
大学专科以下学历
29
167
196
合计
68
324
392
对于教育机构的研究项目,根据上述数据能得出什么结论?
5
2
5
2
4−5 25−27 + 5−5 26−27 + 6−5 30−27
4−5 2 + 5−5 2 + 6−5 2
= ,ො = 27 − × 5 = 14.5,所以关于的经验回归方程为ො = 2.5 + 14.5.
②若由经验回归方程得到的估计数据与所选出的检验数据的误差均不超过2盒,则认为
有关的结论.
规律方法
独立性检验的关注点
在2 × 2列联表中,如果两个分类变量没有关系,那么应满足 − ≈ 0,因此 −
越小,关系越弱; − 越大,关系越强.
题型三 独立性检验与回归分析的综合
典例4 盲盒里面通常装的是动漫、影视作品的周边,或者设计师单独设计出来的玩偶.
周数
1
2
3
4
5
6
盒数
16

23
25
26
30
由于电脑故障,第二周数据现已丢失,该销售网点负责人决定用第4,5,6周的数据求经验
回归方程,再用第1,3周的数据进行检验.
෠ + .
①请用第4,5,6周的数据求出关于的经验回归方程ො =

独立性检验 列联表与独立性检验 教学PPT课件

独立性检验 列联表与独立性检验 教学PPT课件

38
7
45
合计
71
17
88
所以







数学成绩
学校
=
(×−×)
×××
≈ . < . =x0.1
根据小概率值=0.1的 独立性检验,没有充分证据推断H0不成立,因此可以
认为H0成立,即认为两校的数学成绩优秀率没有差异。
12
思考例1和例2都是基于同一组数据的分析,但却得出了不同的结论,你能说明其
中间的四个格中的数是表
格的核心部分,给出了事件
{X=x,Y=y}(x,y=0,1)中样本
点的个数;右下角格中的数
是样本空间中样本点的总
数。







X
Y
X=0
X=1
Y=0
a
c
Y=1
b
d
合计
a+c
b+d
合计
a+b
c+d
n=a+b+c+d
2
复习回顾
两个分类变量之间关联关系的定性分析的方法:
(1)频率分析法:通过对样本的每个分类变量的不同类别事件发生的频率大
中的原因吗?
例1只是根据一个样本的两个频率间存在差异得出两校学生数学成绩优秀率
有差异的结论,并没有考虑由样本随机性可能导致的错误,所以那里的推断依据不
太充分,在本例中,我们用 独立性检验对零假设H0进行了检验,通过计算,发现
≈0.837小于α=0.1所对应的临界值2.706,因此认为没有充分证据推断H0不成立,所
分别考虑③中的四个差的绝对值很困难,我们需要找到一个既合理又能够计算分布的统

独立性检验基本思想及应用

独立性检验基本思想及应用

独立性检验基本思想及应用独立性检验是一种用于确定两个变量之间是否存在关联的统计方法。

其基本思想是通过比较观察到的数据与预期的数据之间的差异来推断这两个变量之间的关系。

独立性检验的应用非常广泛。

在社会科学中,独立性检验常被用于研究两个分类变量之间是否存在关联,例如性别和职业、教育水平和政治倾向等。

在医学研究中,独立性检验也可以用来检查某种治疗方法是否与疾病的发展有关,以及风险因素和某种疾病之间的关系。

此外,独立性检验还被广泛应用于市场调查、品牌定位以及质量控制等领域。

独立性检验的基本思想是建立一个零假设(H0)和一个备择假设(H1)。

零假设认为两个变量是独立的,即它们之间没有关联;备择假设则认为两个变量之间存在关联。

独立性检验的步骤可以分为以下几步:1. 收集数据:需要收集两个分类变量的数据,例如通过问卷调查或观察获得数据。

2. 建立列联表:将数据整理成列联表形式,列联表是一种用于描述两个或多个分类变量之间关系的矩阵。

表格的行表示一个变量的不同类别,列表示另一个变量的不同类别,表格中的每个单元格表示两个类别的交叉数量。

3. 计算期望频数:在独立性检验中,我们假设两个变量是独立的,因此可以基于各类别的边际总数以及样本总数来计算期望频数。

期望频数是在两个变量独立情况下,各个类别的交叉数量。

4. 计算卡方统计量:卡方统计量用于衡量观察到的数据与期望数据之间的差异程度。

计算公式为:χ2 = Σ((观察频数- 期望频数)^2 / 期望频数)。

其中,Σ表示对所有单元格进行求和。

5. 设定显著性水平:显著性水平α为决策的临界点,用于决定是否拒绝零假设。

通常,α的常见选择为0.05或0.01。

6. 判断和解释结果:根据计算出的卡方统计量与临界值进行比较,如果计算出的卡方值大于临界值,拒绝零假设,认为两个变量之间存在关联;反之,接受零假设,认为两个变量是独立的。

独立性检验的结果常常以卡方统计量和p值的形式呈现。

p值是在零假设成立的条件下,观察到的数据与期望数据之间差异的概率。

列联表的独立性检验

列联表的独立性检验

拒绝域形式Q2 c.
因为ˆi
ni n
,ˆ j
n j n
.
r
Q2
s
nij
nin j n
2
r
s
2
nnij nin j
i1 j1
nin j
i1 j1
nnin j
如果H0成立,Qn2渐近服从自由度为(r -1() s -1)
的 2分布.
例1 随机抽取某校男生35名,女生31,进行
体育达标考核,结果如下表 问体育达标水平是
2.5 列联表的独立检验
一、二维r 列s联表
设A, B为两个定性变量,A有r个不同水平(A1,A2 , Ar ),
B有s个不同水平(B1,B2 , Bs ).观测n次, 各水平组合(Ai ,Bj )
出现频数为nij. 列表如下: 二维 r s 列联表
s
令:ni nij j 1
A
B B1,
B2 ,
著的差异.
即有 n11 n21
n1 n2+
如果p1 p2, 表示有属性A的个体中有属性B的比例高

n11 n1
n21 n2+
如果p1 p2,表示有属性A的个体中有属性B的比例低

n11 n21
n1 n2+
四表格的检验问题, 即属性A和B的独立性检验问题有
(1) H0 : p1=p2, H1 : p1 p2 (2) H0 : p1=p2, H1 : p1 p2 (3) H0 : p1=p2, H1 : p1 p2
X-squared = 0.0057, df = 1, p-value = 0.9397 因此在0.05显著性水平下,接受原假设.

新教材2023高中数学第八章成对数据的统计分析8.3列联表与独立性检验8.3.2独立性检验课件新人教

新教材2023高中数学第八章成对数据的统计分析8.3列联表与独立性检验8.3.2独立性检验课件新人教
对实际生活或者生产都有一定的指导作用.
(2)考查独立性检验的综合问题时,常与统计、概率等
知识综合,一般需要根据条件列出 2×2 列联表,计算 χ2 的值,
从而解决问题.
【跟踪训练】
2.给出下列实际问题:
①一种药物对某种病的治愈率;
②两种药物治疗同一种病的效果是否有区别;
③吸烟者得肺病的概率;
④吸烟是否与性别有关联;
2
≈4.514.
探索点一
独立性检验
【例 1】在 500 人身上试验某种血清预防感冒的情况,把
他们一年中的感冒记录与另外 500 名未使用血清的人的感冒
记录进行比较,结果如下表所示.问:依据小概率值 α=0.01 的独
立性检验,能否认为该种血清能起到预防感冒的作用?
单位:人
感冒
血清
合计
未感冒 感冒
258
和 Y 有关联.
α
0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
解析:因为 χ2>7.879,在临界值表中与 7.879 对应的是
0.005,所以可以在犯错误的概率不超过 0.005 的前提下,认为
X 和 Y 有关联.
5.某科研团队对 1 050 例某肺炎确诊患者的临床特征进
的海上航行中男乘客比女乘客更容易晕船?
解: 零假设为
H0:在 2~3 级风的海上航行中晕船和性别没有关联.
根据列联表中的数据,经计算得
2
2 71×(12×24-10×25)
χ=
22×49×37×34
≈0.076<2.706=x0.1.
根据小概率值 α=0.1 的独立性检验,没有充分证据推断

列联表的独立性检验作业

列联表的独立性检验作业

本节研究的是两个分类变量的独立性检验问题。
探究
列联表
为了调查吸烟是否对肺癌有影响, 为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机 地调查了9965 9965人 得到如下结果(单位: 地调查了9965人,得到如下结果(单位:人)
吸烟与肺癌列联表 不患肺癌 不吸烟 吸烟 总计 7775 2099 9874 患肺癌 42 49 91 总计 7817 2148 9965
合计
27
40
57
联合概率分布(图示) 联合概率分布(图示)
概率
老年 戏曲 歌舞 球赛 中年
y边缘分布
青年
合计 32/124 60/124 32/124 1
20/124 5/124 2/124
10/124 20/124 10/124
2/124 35/124 20/124
合计
27/124
40/124
57/124
合计
27
40
57
第二节 列联表的检验 χ2 检验
假设检验的步骤 提出原假设和备择假设 确定适当的检验统计量 规定显著性水平α 规定显著性水平α,查表得出拒绝域和临界值 计算检验统计量的值 作出统计判断: 作出统计判断: 水平的临界值进行比较, 将检验统计量的值与α 水平的临界值进行比较, 得出接受或拒绝原假设的结论: 得出接受或拒绝原假设的结论:若样本统计 量的值落入拒绝域,则拒绝原假设, 量的值落入拒绝域,则拒绝原假设,接受备 择假设;否则,接受H 择假设;否则,接受H0
1. 2.
3. 4.
5.
行变量的类别用 r 表示, ri 表示第 i 个类别 表示, 列变量的类别用 c 表示, cj 表示第 j 个类 表示, 别 每种组合的观察频次用 fij 表示 表中列出了行变量和列变量的所有可能的 组合, 组合,所以称为列联表 一个 r 行 c 列的列联表称为 r × c 列联表

第3节 第2课时 列联表与独立性检验--2025高中数学一轮复习课件基础版(新高考新教材)

第3节  第2课时 列联表与独立性检验--2025高中数学一轮复习课件基础版(新高考新教材)
与在正常环境中体重的增加量有差异?
关键点:准确代入数值求出χ2,明确与哪个临界值比较大小.
2
(
-
)
附:χ2=(+)(+)(+)(+).
α

0.1
2.706
0.05
3.841
0.01
6.635
审题指导:(1)直接根据均值定义求解.
(2)①根据中位数的定义求得m=23.4,从而求得列联表;②利用独立性检验
(1)计算试验组的样本平均数.
(2)①求40只小白鼠体重的增加量的中位数m,再分别统计两样本中小于m
与不小于m的数据的个数,完成如下列联表.
<m
取值范围
≥m
对照组
试验组
突破口:易知中位数是从小到大排序后第20位与第21位数据的平均数.故第
20位数据为23.2,第21位数据为23.6.
②依据小概率α=0.05的独立性检验,能否认为小白鼠在高浓度臭氧环境中
2
2×(0.8×0.7-0.3×0.2)
50
2
可得 χ =
= 99 .
1.1×0.9××
50×100
2 50
当 n=100 时,χ = 99 = 99 >50>10.828=x0.001,依据
α=0.001 的独立性检验,
我们推断 H0 不成立,即认为喜欢登山和性别有关,故③正确;
0.01
6.635
C.250
0.005
7.879
D.300
0.001
10.828
解析 设被调查的男、女学生总数量为n(n∈N*),根据题意可得出2×2列联
表,如下表所示:
性别

列联表与独立性检验

列联表与独立性检验

题型二 用等高堆积条形图分析两变量间的关系 [学透用活]
在等高堆积条形图中展示列联表数据的频率特征,比较图中两个深色条的 高可以发现两者频率不一样而得出结论,这种直观判断的不足之处在于不能给 出推断“两个分类变量有关系”犯错误的概率.
[典例2] 为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组 和对照组的尿液作尿棕色素定性检查,结果如下:
[微思考] 有人说:“根据小概率值α=0.01的独立性检验认为吸烟和患肺癌有 关”,是指“每100个吸烟者中就会有1个患肺癌.”你认为这种观点正确吗? 为什么?
提示:观点不正确.“根据小概率值α=0.01”说明的是吸烟与患肺癌有关程度 的概率值,不是患肺癌的百分数.
(二)基本知能小试
1.判断正误
[对点练清]
假设有两个分类变量 X 与 Y,它们的可能取值分别为 X=0, 1
和 Y=01, ,

2×2 列联表为:
X
X=0 X=1 合计
Y
Y=0 Y=1
10 18
m
26
10+m 44
合计
28 m+26 m+54
则当m取下面何值时,X与Y之间没有影响
A.8
B.9
C.14
D.19
()
解析:若 X 与 Y 之间没有影响,则有1288=262+6 m,解得 m≈14.4,所以当 m=14 时,X 与 Y 之间没有影响即 X 与 Y 的关系最弱. 答案:C
a
21
73
女生(X=1)
8
25
33
合计
b
则表中a,b处的值分别为________.
46
106
解析:∵a+21=73,∴a=52.b=a+8=52+8=60.

高考总复习一轮数学精品课件 第10章 统计与成对数据的统计分析 第3节 第2课时 列联表与独立性检验

高考总复习一轮数学精品课件 第10章 统计与成对数据的统计分析 第3节 第2课时 列联表与独立性检验
的卡方计算进行检验,对照附表结合题意作答.
规范解答:(1)试验组的样本平均数
1
= 20 ×(7.8+9.2+11.4+12.4+13.2+15.5+16.5+18.0+18.8+19.2+19.8+20.2+21.6+
396
22.8+23.6+23.9+25.1+28.2+32.3+36.5)= =19.8.
和B两家公司运营,为了解这两家公司长途客车的运行情况,随机调查了甲、
乙两城之间的500个班次,得到下面列联表:
公司
准点班次数
未准点班次数
A
240
20
B
210
30
(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;
(2)依据小概率值α=0.1的独立性检验,能否认为甲、乙两城之间的长途客
与在正常环境中体重的增加量有差异?
关键点:准确代入数值求出χ2,明确与哪个临界值比较大小.
2
(
-
)
附:χ2=(+)(+)(+)(+).
α

0.1
2.706
0.05
3.841
0.01
6.635
审题指导:(1)直接根据均值定义求解.
(2)①根据中位数的定义求得m=23.4,从而求得列联表;②利用独立性检验
40%的女生不喜欢网络课程,且有99%的把握,但没有99.9%的把握认为是
否喜欢网络课程与性别有关,则被调查的男、女学生总数量可能为( B )
附:χ
( - )2

5.5 列联表中独立性的检验

5.5 列联表中独立性的检验

要求:定义变量
medicine(药物:呋喃、甲氰)、result(效果:愈合、未愈合) count(频数)
给出列联表检验结果
或删去理论频数太小的行,列。
最小理论频数=最小行合计频数﹒最小列合计频数/总频数 3.多个总体率比较的卡方检验,若结论为拒绝原假设, 只能认为总体率之间不全等,不能说明任意两个总体率 有无差别,需做多重比较。
例:
判断患鼻咽癌与血型有无关系
分类
患癌者 健康人 合计
A型血
64 125 189
B型血
86 138 224
双向无序列联表:两个分类变量分类标志无数值大小 与先后顺序之分。
疗法 疗效 治愈 32 76 108 未愈 46 50 96 合计
不加牛黄 加牛黄 合计
78 126 204
设不加牛黄组治愈总体率为
,加牛黄组治愈总体率为 “疗法”与“疗效”独立
检验

H0:X与Y独立(即两组总体率相同)
实际频数Oij与理论频数Eij的差异是随机误差, 用 Pearson卡方统计量反映实际Oij与理论Eij吻合程度
O型血
130 210 340
AB型血
20 26 46
合计
300 499 799
第一行合计数,第四列合计数最小,最小理论频数
300 46 E14 17.27 5 799 H0:“患癌”与“血型”独立,H1:“患癌”与“血型”
不独立
2
642 862 N( 1) 799 i , j 1 Oi O j 300 189 300 224
不加牛黄 32 加牛黄 76 合计 108
疗效
治愈 46 50 9“疗法”与“疗效”独立(即两组治愈率相同 ) N=204>40

跟我学一步步学Minitab (33)独立性检验(用列联表分析)20200427

跟我学一步步学Minitab (33)独立性检验(用列联表分析)20200427

分析的例子 可以进一步进行分析
若吸烟和咳嗽无关, 这 个 值 应 该 是 80 , 而实际是100
这个卡方贡献最大
100大于80.说明吸烟 导致咳嗽的人更多了
今天就谈到这,欢迎大家交流!
100
700
100
1800
200
行和 1200 800 2000
分析目的:确定吸烟和咳嗽是否有关系?
分析例子
确定两个因子是否有关联;列联表;采取χ2 检验法
原假设(H0):因子A和B独立 备择假设(H1):因子A和B不独 立 求p值,若p<0.05,则认为有关联
分析例子 在Minitab工作表上,整理好数据
独立性检验(用列联表分析) 独立性检验(用列联表分析)
大家好!今天我们谈谈:“如何利用Minitab进行独立性检验”;我们用列联表的方式进行分析
列联表(contingency table) 列联表是观测数据按两个或更多属性(定性变量)分类时所列出的频数表 由两个以上的变量进行交叉分类的频数分布表
列联表(contingency table) 列联表主要作用 分析基本问题:观察各属性之间是否独立 各个属性是否有明显差异
Minitab选项表中,选择统计>表格>卡方检验(工作表中的双向表)
分析的例子 在弹出的选项中,按如下吸烟没有显示,获得结果中,分别用“1”和“2”显示
分析的例子 对获得的分析结果进行解释
p=0.002 , 小 于 0.05;拒绝原假设
拒绝原假设,认为原假设不 成立,备选假设成立。认为A 和B不独立。也就是吸烟和咳 嗽有关系
什么是独立性检验(chi square test)
根据次数资料判断两类因子彼此相关或相互独立的假设检验

独立性检验(卡方检验)

独立性检验(卡方检验)

独⽴性检验(卡⽅检验)
独⽴性检验(Test for Independence)是根据频数来判断两类因⼦是彼此独⽴还是彼此相关的⼀种假设检验。

假如对某⼀个数据集有X(值域为x1, x2)跟Y(值域为y1, y2)变量,下⾯是他们的频数表:
x1x2汇总
y1a b a+b
y2c d c+d
汇总a+c b+d n = a+b+c+d
我们可以使⽤独⽴性检验来了解变量x与y是否有关系,并且能较准确的给出这种判断的可靠程度。

具体做法是由上⾯的频数表计算出随机变量K2的值:
其中K⽅的值越⼤,说明变量X与变量Y有关系的可能性越⼤。

当频数表中a、b、c、d的值都不⼩于5的时候,可以查阅下表来确定“X与Y有关系”的可信程度:
P(K^2≥k)0.50.40.250.150.1
k0.4550.708 1.323 2.072 2.706
P(K^2≥k)0.050.0250.010.0050.001
k 3.841 5.024 6.6357.87910.828
我们为什么不能只凭列联表中的数据和由其绘出的图形得出两个变量是否有关系的结论呢?由列联表可以粗略地估计出两个变量(两类对象)是否有关(即粗略地进⾏独⽴性检验),但2×2列联表中的数据是样本数据,它只是总体的代表,具有随机性,故需要⽤独⽴性检验的⽅法确认所得结论在多⼤程度上适⽤于总体。

列联表的两种抽样模型以及齐性和独立性的检验问题

列联表的两种抽样模型以及齐性和独立性的检验问题

列联表的两种抽样模型以及齐性和独立性的检验问题禹建奇(桂林理工大学理学院,广西桂林541004)摘要:本文讨论二维列联表数据的两种抽样模型,以及相关的齐性和独立性检验问题,说明两种抽样模型的联系,以及齐性及独立性检验的一致性.关键词:列联表;抽样模型;齐性;独立性检验中图分类号:G642.0文献标志码:A文章编号:1674-9324(2015)14-0071-02作者在讲授统计课程时,经常会遇到列联表的齐性和独立性检验问题,这两个问题分别牵涉到两种抽样方式,但两种检验的检验统计量与结果却是一样的.大多数教材,如吴喜之、赵博娟所著《非参数统计》,只是简单指出两种抽样方式的不同,两种检验的一致性只是殊途同归,巧合而已.本文论证了这两种模型的联系,导出两种检验的一致性,可见,这种一致性绝不是巧合.一、乘积多项分布模型与整体多项分布模型首先我们来看两个二位列联表的例子(摘自吴喜之、赵博娟所著《非参数统计》第八章).例1对于某种疾病有三种处理方法,某医疗机构分别对22,15和19个病人用这三种方法处理,处理的结果分“改善”和“没有改善”两种,并且列在下表中:问:不同处理的改善比例是不是一样?例2在一个有三个主要百货商场的商贸中心,调查者问479个不同年龄段的人首先去三个商场中的哪一个,结果如下:问:人们对这三个商场的选择和他们的年龄是否独立?这两个例子的数据都有下面的两因子列联表形式:这里,每个格子的频数n ij 为随机变量,行频数总和n i •=∑j n ij ,列频数总和n •j =∑i n ij ,频数总和n ••=∑i n i •=∑j n •j ,A 1,A 2,…,A r 为行因子的r 个水平,B 1,B 2,…,B c 为列因子的c 个水平.用p ij 表示第ij 个格子频数占总频数的理论比例(概率).显然,p ij =E (n ij )/n ••,这里E (n ij )为n ij的数学期望,而相应的第i 行的理论比例(概率)p i •及第j 列的理论比例(概率)p •j 分别为p i •=∑j p ij ,p •j =∑i p ij •对于例1代表的那一类问题,要检验的是每行分布的齐性(homogeneity ).一般来说,对齐性的检验就是检验H 0:“对所有行,给定行的条件列概率相同.”记给定第i 行后第j 列的条件概率为p j|i =p ij p i •,零假设则为H 0∶p j|i =p j|i *=,∀j ,i ≠i *.而备选假设为H 1“零假设中的等式至少有一个不成立.”在零假设下,条件概率p j|i 与i 无关,我们可以记该条件概率为p j ,则p •j =∑i p ij =∑i p i •p j|i =∑i p i .p j =p j ∑i p i .=p j ,零假设即为H 0∶p j|i =p •j ,∀j ,i对于例1的具体问题,零假设为:“对于各种不同的处理,改善的比例或概率相同.”注意,这里因为只有两种结果,所以,对不同处理改善的比例相同就意味着对各种处理没有改善的比例也相同.这种关于齐性的检验的数据获取,一般都类似于例8.1,对行变量的每一水平i ,试验前选定一定数目(n i ·)的对象,然后在试验时观测并记录在列变量的不同水平所得到的相应频数.在零假设之下,第ij 个格子的期望值E ij =E (n ij )应该资助项目:本文获“桂林理工大学博士科研启动基金(2014)”支持作者简介:禹建奇(1970-),男,湖南邵阳人,数学博士,教师,研究方向:数理统计. All Rights Reserved.等于n i •p •j ,但p •j 未知,零假设下,可以用其估计p^•j =n •jn ••代替.这样期望值的估计值为E ^ij =n i •p ^•j =n i •n •j /n ••而第ij 个格子的实际频数为n ij ,故Pearson χ2统计量为Q=∑i ∑j (n ij -E ij )2E ij =∑i ∑j(n ij -n i •n •j n ••)2n i •n •j /n ••它在样本量较大时(E ij ≥5,∀i ,j )近似地服从自由度为(r-1)(c-1)的χ2分布.一般而言,对r ×c 的列联表,试验前先选定各行的总频数n i ·,再进行独立抽样,记录各个格子的频数,这样,每行的分布是一独立的多项分布P (n ij =o ij ,j=1.2.…,c )=n i •!n i1!n i2!…n ic !p 1|i n i1…p c|inic这里,o ij 是n ij 的观测值,p i|1,….p i|c 为给定行的条件概率.所以,整个列联表的分布为独立多项分布的乘积P (n ij =o ij ,j=1.2.…,c ,i=1.2.…,r )=∏ri=1n i •!∏ri=1∏cj=1n ij !∏ri=1∏cj=1p j|in ij这种抽样模型称列联表的乘积多项分布模型.而对于例2那一类问题,要检验的是行和列变量的独立性(INDEPENDENCE ).当行变量与列变量独立时,一个观测值分配到第ij 个格子的理论概率p ij 应该等于行列两个概率之积p i •p •j ,即零假设为H 0∶p ij =p i •p •j ,∀i ,j这时,在零假设下,它的估计值为p^ij =p ^i •p ^•j =n i •n ••n •j n ••,而第ij 个格子的期望值估计为E ^ij ≈n ••p ^ij =n i •n •j /n ••可以看到,这和前面检验齐性时零假设下的期望值一样,由此可以得到和上面检验齐性时导出的同样的统计量Q ,这样导出的Q 当然也有同样的渐近χ2分布.这类关于独立性的问题的数据获取,通常是随机选取一定数目的样本,然后记录这些个体分配到各个格子的数目(频数).它并不事先固定某变量各水平的观测对象数目,这和齐性问题有所区别.一般地,对r ×c 的列联表,试验前先选定总频数n ••,再进行独立抽样,记录n ••个对象落在各个格子的频数,这样,整个列联表的分布为一多项分布P (n ij =o ij ,j=1.2.…,c ,i=1.2.…,r )=∏ri=1n ••!∏ri=1∏cj=1n ij !∏r i=1∏c j=1p ijn ij这种抽样模型称列联表的整体多项分布模型.二、两种模型的联系如上所述,很多的统计教材也都指出,同一个列联表数据可以有两种抽样模型,而且对两种模型分别做齐性和独立性检验时,检验过程与结论完全一样,但是其中的缘由却未见说明.其实可以证明,这并不是巧合,它是下面两个定理的结果.定理一:齐性问题与独立性问题等价,即各行的齐性等价于行与列变量的独立性.证明:各行齐性,即对∀i ,j ,p j|i =p •j ,⇔p ij =p i •p j|i⇔p ij =p i •p •j ,即独立性定理二:在整体多项分布中,考虑固定各行总频数的条件概率,则得乘积多项分布.证明:整体多项分布即:P (n ij =o ij ,j=1.2.…,c ,i=1.2.…,r )=∏ri=1n ••!∏r i=1∏cj=1n ij !∏r i=1∏c j=1p ijn ij注意到n i •,i=1.2.…,r 的分布亦为一多项分布P (n i •=o i •,i=1.2.…,r )=n ••!∏r i=1n i •!∏ri=1p i •n i •可以得到,固定各行总频数的条件概率为:P (n ij =o ij ,j=1.2.…,c ,i=1.2.…,r|n i •=o i •,i=1.2.…,r )=P (n ij =o ij ,j=1.2.…,c ,i=1.2.…,r )P (n i •=o i •,i=1.2.…,r )=(n ••!∏r i=1∏c j=1n ij !∏r i=1∏c j=1p ij n ij)/(n ••!∏ri=1n i •!∏ri=1p i •n i •)=∏ri=1n i •!∏r i=1∏cj=1n ij !∏r i=1∏cj=1(p ij /p i •)nij=∏ri=1n i •!∏r i=1∏cj=1n ij !∏r i=1∏c j=1(p j|i )n ij三、最后结论整体抽样模型的独立性当然等价于固定各行总频数时的齐性,所以,综合可得以下结论:二维列联表的数据,可能来自两种不同的抽样模型:整体多项分布模型和乘积多项分布模型,但是两种模型其实是一致的,即乘积多项分布模型可以认为是整体多项分布模型在限定各行总频数的条件下的条件分布模型,同时由于齐性与独立性的等价,不论以何种模型分析同一个列联表的齐性或独立性,得到的结果是一样的.参考文献:[1]吴喜之,赵博娟.非参数统计[M].中国统计出版社,2013.[2]阿兰,阿格莱斯蒂.分类数据分析[M].重庆大学出版,2012.. All Rights Reserved.。

2025高中数学选择性必修第三册-8.3列联表与独立性检验【课件】

2025高中数学选择性必修第三册-8.3列联表与独立性检验【课件】

5.临界值的定义:
对于任何小概率值α,可以找到相应的正实数xα,使得 P(x≥xα)=α成立,我们称xα为α的临界值,这个临界值可作为判 断χ2大小的标准,概率值α越小,临界值xα越大. χ2独立性检验中几个常用的小概率值和相应的临界值.
α
0.1
0.05

2.706
3.841
基于小概率值α的检验规则:
4.881>3.841=x0.05
根据小概率值α=0.05的χ2独立性检验,我们推断 H0不成立,即
可以认为两种疗法效果有差异,该推断犯错误的概率不超过0.05.
根据小概率值α=0.05的独立性检验,分析乙种疗法 的效果是否比甲种疗法好.
甲种疗法未治愈和治愈的频率分别是
15 0.224,52 0.776
疗效
未治愈 治愈
6
63
15
52
21
115
合计
69 67 136
疗法
甲 乙 合计
疗效
治愈 未治愈
52
15
63
6
115
21
合计
67 69 136
χ
2
=
136(1563 526)2 67 69 21115
4.881
χ
2
=
136(526 1563)2 69 67 21115
4.881
χ2
=
136(526 1563)2 67 69 21115
例1.为比较甲、乙两所学校学生的数学水平,采用简单随机抽样 的方法抽取88名学生. 通过测验得到了如下数据:甲校43名学生 中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀. 试分析两校学生中数学成绩优秀率之间是否存在差异.
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

B A
A1 A2
M
Ar j
r s 列联表的联合及边缘分布列
B1,
L B2 ,
L 11
12
L 21
22
Bs
i
1s
1
2s
2
MM L r1 r 2
L 1 2
MM
rs
r
s 1
s
i ij , i 1, 2,L , r j 1
r
j ij , j 1, 2,L , s. i 1 rs 1 ij. i1 j 1
若A, B独立 ij i g j ,i 1, 2L r, j 1, 2,L s.
原假设 H0:A, B独立
即为ij i g j ,i 1, 2L , r, j 1, 2,L , s成立.
备则假设 H1:A, B不相互独立
即为至少(i, j), 使ij i g j .
(A, B)的观测值为对应的列联表(观测次数n),
频数四表格
B
A
n11
A
n21
n+1
对应的概率四表格
B
A
p11
A
p21
p+1
B 合计
n12
n1+
n22
n2+
n+2
n++
B 合计
p12
p1+
p22
p2+
p+2 1
假设边缘频数 n1,n2,n1,n2 固定
n11,n21 分别服从二项分布 B(n1+,p1)和B(n2+,p2 ) 其中,p1=P(B | A), 表示有属性A的个体中有属性B的条件概率
ij n ij n i g
s (观测频数-理论频数)2
j 1
理论频数
称为Pearson 2 统计量
j
.
如果H 0成立,Q2的值应较小.
拒绝域形式Q2 c.
因为ˆi
ni n
,ˆ j
n j n
.
r
Q2
s
nij
nin j n
2
r
s
2
nnij nin j
i1 j1
nin j
i1 j1
92页例2.14自己看
在使用Pearson 2 独立性检验时, 要注意格子
的期望频数小于5的格子数不超过总格子数的20%, 且没有一个格子的期望频数小于1
不满足时, 用Pearson近似效果很差, 一般采用 Fisher精确检验.
2.5.2 Fisher精确检验
Fisher精确检验对于单元频数小的表格特别适用 四表格的Fisher精确检验
15
20
35

13
18
31
n
合 计 28
38
66
(1)建立假设
H 0:体育达标水平与性别无关 H1:体育达标水平与性别有关
(2)计算
Q
2
值,理论频

n
i
j
=
ni n n
j
估计为:
35 28 14.85 35 38 20.15
66
66
31 28 13.15 66
31 38 17.85 66
Q2 (15 14.85)2 (20 20.15)2 (13 13.15)2 (18 17.85)2
A1
n11
L B2 , L n12
r
n j nij i 1
rs
n
nij =n
i1 j 1
A2
n21
L n22
M MM
Ar
L nr1 nr 2
L 合计 n1
n 2
Bs
合计
n n1s
1
n n2s
2
MM
nrs nr
ns n n
为了调查吸烟是否对肺癌有影响,对632位×2列 肺癌患者及43位非患者(对照组)调查了联表
Fisher精确检验的统计量
假设边缘频数 n1,n2,n1,n2 都固定
2.5 列联表的独立性检验
一、二维r s列联表
设A, B为两个定性变量,A有r个不同水平(A1,A2 L , Ar ),
B有s个不同水平(B1,B2 L , Bs ).观测n次, 各水平组合(Ai 二维 r s 列联表
s
令:ni nij j 1
A
B B1,
其中的吸烟人数.
吸烟 不吸烟
总计
吸烟与肺癌列联表
患肺癌 不患肺癌
60
32
3
11
63
43
总计 92 14 106
二、二维r s列联表的独立性检验
设A, B为随机变量,A取值A1,A2 L , Ar ,
B取值为B1,B2 L
,
Bs
.取值(Ai
,B
j
)的概率为

ij
i , j为A, B的边缘分布. 列表如下:
14.85
20.15
13.15
17.85
0.006
(3)统计决断: 首先确定自由度 df ,本例
df
=1,查 df
=1

2
表,
2 (
0.05() 1)=3.84,故有
2 < . 2(0.05() 1)
因此在0.05显著性水平下,接受原假设.
其结论为:体育达标水平与性别无关.
R函数chisq.test ( )
如果p1 p2,表示有属性A的个体中有属性B的比例低

n11 n21
n1 n2+
四表格的检验问题, 即属性A和B的独立性检验问题有
(1) H0 : p1=p2, H1 : p1 p2 (2) H0 : p1=p2, H1 : p1 p2 (3) H0 : p1=p2, H1 : p1 p2
R程序如下 >x<-matrix(c(15,13,20,18),nr = 2) >chisq.test(x, correct=F) 输出结果为 Pearson's Chi-squared test data: x
X-squared = 0.0057, df = 1, p-value = 0.9397 因此在0.05显著性水平下,接受原假设.
nnin j
如果H0成立,Qn2渐近服从自由度为(r -1() s -1)
的 2分布.
例1 随机抽取某校男生35名,女生31,进行
体育达标考核,结果如下表 问体育达标水平是
否与性别有关?
r
Q2
s
nij
nin j n
2
i1 j1
nin j
体育达标考核情况表 达 标 未 达 标合 计

p2 P(B | A)
表示没有属性A的个体中有属性B的条件概率
如果p1=p2, 则属性A和属性B相互独立
即有属性A的个体中有属性B的个体的频率与没有
属性A的个体中有属性B的个体的频率应该没有显
著的差异.
即有 n11 n21
n1 n2+
如果p1 p2, 表示有属性A的个体中有属性B的比例高

n11 ? n21 n1 n2+
nij为观测频数,n ij 理论频数.
H0成立,即nij ni g j成立,对i 1, 2L , r, j 1, 2,L , s.
检验基本思想:
如果H
0成立,n较大时,理论频数n
i
与相应的
j
观测频数nij相差均不应很大。
H0成立
n 检验统计量
r
Q2
r
s
(nij
-n
i
)i21
j
i1 j1 ni g j
相关文档
最新文档