列联表的独立性检验
2.5列联表的独立性检验
吸烟 不吸烟 总计
总计 92
14 106
二、二维r s列联表的独立性检验
设A, B为随机变量,A取值A1 ,A2 , Ar , B取值为B1 ,B2 , Bs .取值(Ai ,B j )的概率为 ij,
i , j为A, B的边缘分布. 列表如下:
r s 列联表的联合及边缘分布列
高收入
25 16
关于A,B的边缘表.
低收入 赞成 不赞成 20 5
中等收 入 10 8
高收入 15 10
关于B,C的边缘表.
部分表是固定一个变量在其不同一水平上的二维列联表.
边缘表是忽略一个变量形成另外两个变量的二维列联表.
四各种独立性及关系 .
B A
B1 ,
B2 ,
A1
A2
11 21
12
22
Bs
1s
2s
i 1 i 2
j 1 r
s
ij
, i 1, 2,, r
Ar
r1 r 2 rs r
2
j ij , j 1, 2,, s.
92页例2.14自己看
在使用Pearson
2
独立性检验时, 要注意格子
的期望频数小于5的格子数不超过总格子数的20%, 且没有一个格子的期望频数小于1 不满足时, 用Pearson近似效果很差, 一般采用 Fisher精确检验.
2.5.2 Fisher精确检验
Fisher精确检验对于单元频数小的表格特别适用 四表格的Fisher精确检验
H 0: 新药疗效没有提高 H1: 新药疗效有提高
【高中数学】列联表与独立性检验(课件) 高二数学(人教A版2019选择性必修第三册)
这种利用 2的取值推断分类变量X和Y是否独立的方法称为 2独立性检验,
简称独立性检验 .
探究新知
下表为独立性检验中几个常用的小概率值和相应的临界值
α
xα
0.1
2.706
0.05
3.841
0.01
6.635
0.005
7.879
0.001
根据小概率值α=0.001的独立性检验,推断H0不成立,即认为吸烟与
患肺癌有关联,此推断犯错误的概率不大于0.001.
典型例题
根据表中数据计算,不吸烟者中不患肺癌和患肺癌的频率分别为
7775/7817≈0.9946 和 42/7817≈0.0054
吸烟者中不患肺癌和患肺癌的频率分别为
2099/2148≈0.9772 和 49/2148≈0.0228
中有 43 人的饮食以蔬菜为主,另外 27 人则以肉类为主;六十岁以下的人中有
21 人饮食以蔬菜为主,另外 33 人则以肉类为主.请根据以上数据作出饮食习
惯与年龄的列联表,并利用 P(Y=1|X=0)与 P(Y=1|X=1)判断二者是否有关系.
[解]
用 Ω 表示共调查了 124 人所构成的集合,定义一对分类变量 X 和 Y
性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?
探究新知
[解]
病人组中尿液为阳性和阴性的频率分别为:
29
7
≈0.805 6 和 ≈0.194 4.
36
36
对照组中尿液为阳性和阴性的频率分别为:
9
28
≈0.243 2 和 ≈0.756 8.
37
37
独立性检验 列联表与独立性检验 教学PPT课件
38
7
45
合计
71
17
88
所以
讲
课
人
:
邢
启
强
数学成绩
学校
=
(×−×)
×××
≈ . < . =x0.1
根据小概率值=0.1的 独立性检验,没有充分证据推断H0不成立,因此可以
认为H0成立,即认为两校的数学成绩优秀率没有差异。
12
思考例1和例2都是基于同一组数据的分析,但却得出了不同的结论,你能说明其
中间的四个格中的数是表
格的核心部分,给出了事件
{X=x,Y=y}(x,y=0,1)中样本
点的个数;右下角格中的数
是样本空间中样本点的总
数。
讲
课
人
:
邢
启
强
X
Y
X=0
X=1
Y=0
a
c
Y=1
b
d
合计
a+c
b+d
合计
a+b
c+d
n=a+b+c+d
2
复习回顾
两个分类变量之间关联关系的定性分析的方法:
(1)频率分析法:通过对样本的每个分类变量的不同类别事件发生的频率大
中的原因吗?
例1只是根据一个样本的两个频率间存在差异得出两校学生数学成绩优秀率
有差异的结论,并没有考虑由样本随机性可能导致的错误,所以那里的推断依据不
太充分,在本例中,我们用 独立性检验对零假设H0进行了检验,通过计算,发现
≈0.837小于α=0.1所对应的临界值2.706,因此认为没有充分证据推断H0不成立,所
分别考虑③中的四个差的绝对值很困难,我们需要找到一个既合理又能够计算分布的统
列联表与独立性检验 课件
n
n
反之,当这些量的取值较大时,就可以推断 H0 不成立.
显然,分别考虑③中的四个差的绝对值很困难. 我们需要找到一个既 合理又能够计算分布的统计量,来推断 H0 是否成立. 这里,我们将四个 差的绝对值取平方后分别除以相应的期望值再求和,得到如下的统计量:
2
a
(a
b) (a n
c)
2
(a b)(a c)
下表给出了独立性检验中5个常用的小概率值和相应的临界值.
α
0.1 0.05 0.01 0.005 0.001
xα
2.706 3.841 6.635 7.879 10.828
例如,对于小概率值 α 0.05 3.841 时,我们认为 X 和 Y 不独立,该推断犯错误的 概率不超过0.05;
根据小概率事件在一次试验中不大可能发生的规律,上面的想法可以 通过一个与 H0 相矛盾的小概率事件来实现. 在假定 H0 的条件下,对于有 放回简单随机抽样,当样本容量 n 充分大时,统计学家得到了 2 的近似 分布.
忽略 2 的实际分布与该近似分布的误差后,对于任何小概率值 α,可
以找到相应的正实数 xα,使得下面关系成立:
率分别为 33 0.7674 和 10 0.2326 ;乙校学生中数学成绩不优秀和数学
43
43
成绩优秀的频率分别为 38 0.8444 和 7 0.1556 .依据频率稳定于概率
45
45
的原理,我们可以推断,如果从甲校和乙校各随机选取一名学生,那么甲
校学生数学成绩优秀的概率大于乙校学生数学成绩优秀的概率. 因此可以
(2)当 2 x 0.05 3.841 时,我们认为 X 和 Y 独立.
认为两校学生的数学成绩优秀率存在差异.
8.3列联表与独立性检验课件-高二数学人教A版选择性必修第三册
自主学习
2. 2×2 列联表:
一般地,假设有两个分类变量 X 和 Y,它们的取值分别为{x1,x2}和{y1,y2},其
样本频数列联表(称为 2×2 列联表)为
y1
y2
合计
x1 x2 合计
a c a+c
b d b+d
a+b c+d a+b+c+d
自主学习
(1)列联表是两个或两个以上分类变量的汇总统计表,现阶段我们仅研究 两个分类变量的列联表,并且每个分类变量只取两个值,这样的列联表 称为2×2列联表. (2)列联表有助于直a 观地观测数据之间的关系,如a表示既满足x1,又满 足y1的样本量,a+b 表示在x1情况下,又满足y1条件的样本所占的频率.
课后作业
对应课后练习
经典例题
题型二 独立性检验
解: (1)2×2 列联表如表所示:
教师年龄
对新课程教学模式
赞同
不赞同
老教师
10
10
青年教师
24
6
合计
34
16
合计
20 30 50
经典例题
题型二 独立性检验
(2)零假设为 H0:对新课程教学模式的赞同情况与教师年龄无关.
由公式得
χ2=50×
10×6-24×10 34×16×20×30
63
117
180
女生
42
82
124
合计
105
199
304
根据表中数据,则下列说法正确的是________.(填序号) ①性别与知道想学专业有关; ②性别与知道想学专业无关; ③女生比男生更易知道所学专业.
当堂达标
② 解析:
χ2=304×1806×31×2842×-10452××119197
列联表与独立性检验-高考数学复习
目录
高中总复习·数学
5. (2024·南通模拟)已知变量 X , Y ,由它们的样本数据计算得到
χ2≈4.328,χ2的部分临界值表如下:
α
0.10
0.05
0.025
0.010
0.005
xα
2.706
3.841
5.024
6.635
7.879
则最大有
95% 的把握说变量 X , Y 有关系(填百分数).
工作,会务组选聘了50名记者担任对外翻译工作,下表为“性别与
会俄语”的2×2列联表,则 a - b + d =
性别
28 .
是否会俄语
会俄语
不会俄语
男
a
b
女
6
d
合计
18
合计
20
50
目录
高中总复习·数学
解析:由2×2列联表得 a +6=18,所以 a =12,因为 a + b =20,所
以 b =8,因为6+ d =30,所以 d =24,所以 a - b + d =12-8+24
饮用水
是否得病
合计
得病
不得病
干净水
52
466
518
不干净水
94
218
312
合计
146
684
830
目录
高中总复习·数学
(1)这种传染病是否与饮用水的卫生程度有关?请说明理由;
解:零假设为 H 0:这种传染病与饮用水的卫生程度无关.
2
830×
(
52×218−466×94
)
12 =
≈54.21>10.828= x 0.001,
列联表与独立检验_课件
P(Y=1|X=0)>P(Y=1|X=1),也就是说,如果从甲校和乙校各随机选 取一名学生,那么甲校学生数学成绩优秀的概率大于乙校学生数学 成绩优秀的概率,因此,可以认为两校学生的数学成绩优秀率存在 差异,甲校学生的数学成绩优秀率比乙校学生的高.
你认为“两校学生的数学成绩优秀率存在差异”这一结论是 否有可能是错误的?
精品 课件
高中数学选择性必修3
第八章 成对数据的统计分析
列联表与独立检验
新人教版
特级教师优秀课件精选
教学目标
了解独立性检验(只要求2×2列联表)的基本思想 .理解独立性检验中P( ≥K0)的具体含义. 掌握独立性检验的方法和步骤 .
教学重点
相互独立事件的概念以及概率积公式的应用,独立检验的方 法与步骤。
总结
2×2列联表作法(理解)
独立性检验
统计量的计算(理解)
理解独立性检验的思想(了解)
合计
9874
91
解:零假设为 Ho:吸烟与患肺之间无关联.
7817 2148 9965
根据列联表中的数据,经计算得到
据小概率值 =0.001的独立性检验,我们推断H。不成立,即认为吸烟与患肺关联,此推断犯错误的概率 不大于0.001. 根据 表 8.3-6 中的数据计算,不吸烟者中不患肺癌和患肺癌的频率分别为
(2)不对
独立性检验
(1)定义:利用随机变量K2来判断“两个分类变量有关系”的方 法称为独立性检验.
(2)K2=
,
其中n=a+b+c+d为样本容量.
独立性检验的具体做 法
①根据实际问题的需要确定容许推断“两个分类变量有关系”犯
错误概率的上界α,然后查表确临定界__值_________ .
8.3.1分类变量与列联表8.3.2 独立性检验PPT课件(人教版)
18×0.08+20×0.02=12.16.
由前4组的频率之和为0.04+0.06+0.10+0.10=0.30,前5组的频率之和为0.30+0.30=0.
6,知样本中位数落在第5组,设样本中位数为t,则(t-11)×0.15=0.5-0.3,所以t= 37 .
3
故可以估计该市不超过40岁的市民日健步走步数的平均数为12.16,中位数为 37 .
50 50 45 55
概率不超过0.001的前提下认为使用手机与学习成绩有关.故选A. 答案 A
第八章 成对数据的统计分析
2 |独立性检验与统计、概率的综合应用
通过频率散布直方图中的统计功能完善2×2列联表,从而对事件进行独立性检 验,准确读取频率散布直方图中的数据,进行分组统计是解题的关键.解决独立性检 验的问题要注意明确两类主体,明确研究的两类问题,再就是准确列出2×2列联表, 准确计算χ2.在写出2×2列联表中a,b,c,d的值时,注意一定要按顺序.
成绩不优秀 10 45 55
合计 50 50 100
第八章 成对数据的统计分析
A.在犯错误的概率不超过0.001的前提下认为使用手机与学习成绩有关 B.在犯错误的概率不超过0.001的前提下认为使用手机与学习成绩无关 C.有99.5%的把握认为使用手机对学习成绩没有影响 D.没有99%的把握认为使用手机对学习成绩有影响 解析 由题中表格得,χ2=100 (40 45-10 5)2 ≈49.495>10.828=x0.001,所以在犯错误的
3
(ii)[μ-2σ,μ+σ]=[4.88,15.8],
而P(μ-2σ≤Z≤μ+σ)= 1P(μ-2σ≤Z≤μ+2σ)+ 1P(μ-σ≤Z≤μ+σ)≈0.818 6,
25列联表的独立性检验
备 则 假 设 H : A , B 不 相 互 独 立 1
即 为 至 少 ( i , j ) , 使 . i j i j
n 为 观 测 频 数 , n 理 论 频 数 . i j i j H 0成立, 即成 n n , 对 i 1 , 2 , r ,1 j , 2 , , s . i j i j立
2
(2)计算 Q 值,理论频数 n i j =
35 28 14 .85 66
31 28 13.15 66
ni n j n
估计为:
35 38 20.15 66
31 38 17.85 66
2 2 2 2 ( 1 5 1 4 . 8 5 ) ( 2 0 2 0 . 1 5 ) ( 1 3 1 3 . 1 5 ) ( 1 8 1 7 . 8 5 ) 2 Q 1 4 . 8 5 2 0 . 1 5 1 3 . 1 5 1 7 . 8 5 0 . 0 0 6
( 3 )H : p = pH , 1 : pp 0 1 2 1 2
Fisher精确检验的统计量
,, n , n 1 2 n 1 2 都固定 假设边缘频数 n
N 是 第 i 行 j 列 格 子 的 频 数 统 计 量 i j
N 服 从 超 几 何 分 布 i j
P (N n ij = ij )
2.5.2 Fisher精确检验
Fisher精确检验对于单元频数小的表格特别适用 四表格的Fisher精确检验
频数四表格
B
B
n 12
合计
n 1+
n n
2+
A
n 11
列联表与独立性检验
题型二 用等高堆积条形图分析两变量间的关系 [学透用活]
在等高堆积条形图中展示列联表数据的频率特征,比较图中两个深色条的 高可以发现两者频率不一样而得出结论,这种直观判断的不足之处在于不能给 出推断“两个分类变量有关系”犯错误的概率.
[典例2] 为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组 和对照组的尿液作尿棕色素定性检查,结果如下:
[微思考] 有人说:“根据小概率值α=0.01的独立性检验认为吸烟和患肺癌有 关”,是指“每100个吸烟者中就会有1个患肺癌.”你认为这种观点正确吗? 为什么?
提示:观点不正确.“根据小概率值α=0.01”说明的是吸烟与患肺癌有关程度 的概率值,不是患肺癌的百分数.
(二)基本知能小试
1.判断正误
[对点练清]
假设有两个分类变量 X 与 Y,它们的可能取值分别为 X=0, 1
和 Y=01, ,
其
2×2 列联表为:
X
X=0 X=1 合计
Y
Y=0 Y=1
10 18
m
26
10+m 44
合计
28 m+26 m+54
则当m取下面何值时,X与Y之间没有影响
A.8
B.9
C.14
D.19
()
解析:若 X 与 Y 之间没有影响,则有1288=262+6 m,解得 m≈14.4,所以当 m=14 时,X 与 Y 之间没有影响即 X 与 Y 的关系最弱. 答案:C
a
21
73
女生(X=1)
8
25
33
合计
b
则表中a,b处的值分别为________.
46
106
解析:∵a+21=73,∴a=52.b=a+8=52+8=60.
人教版高二下数学选择性必修第三册-8.3 列联表与独立性检验(第1课时)【课件】
d
c+d
合计
a+c
b+d
n=a+b+c+d
2×2 列联表给出了成对分类变量数据的交叉分类频数.
要点 3 独立性检验
(1)定义:利用随机变量 χ2 的取值推断___两__个_分__类_变__量_是__否_独__立_____的方法称为
独立性检验.
n(ad-bc)2
(2)χ2=____(_a_+__b_)_(__c_+_d_)__(__a+__c_)__(_b_+__d_)___,其中 n=a+b+c+d.
有关系.
【解析】 等高堆积条形图如图所ቤተ መጻሕፍቲ ባይዱ:
由图可以直观地看出铅中毒病人组与对照组相比,尿棕色素为阳性的频率差 异明显,因此铅中毒病人与尿棕色素为阳性有关系.
(2)为了了解某高校学生喜欢使用手机支付是否与 性别有关,随机抽取了部分学生,统计后作出如图所示 的等高堆积条形图,则下列说法正确的是( D )
思考题 2 下面是 2×2 列联表:
y1
y2
总计
x1
a
21
73
x2
22
25
47
总计
b
46
120
则表中 a,b 的值分别为( C )
1.两个分类变量之间关联关系的定性分析的方法 (1)频率分析法:通过对样本的每个分类变量的不同类别事件发生的频率大小 进行比较来分析分类变量之间是否有关联关系.如可以通过列联表中a+a b与c+c d 值的大小粗略地判断分类变量之间有无关系.一般其值相差越大,分类变量有关 系的可能性越大.
(2)图形分析法:与表格相比,图形能更直观地反映出两个分类变量间是否互 相影响,常用等高堆积条形图展示列联表数据的频率特征.
思考题 1 (1)观察下列等高堆积条形图,其中最有把握认为两个分类变量 X,Y 之间有关系的是( D )
5.5 列联表中独立性的检验
要求:定义变量
medicine(药物:呋喃、甲氰)、result(效果:愈合、未愈合) count(频数)
给出列联表检验结果
或删去理论频数太小的行,列。
最小理论频数=最小行合计频数﹒最小列合计频数/总频数 3.多个总体率比较的卡方检验,若结论为拒绝原假设, 只能认为总体率之间不全等,不能说明任意两个总体率 有无差别,需做多重比较。
例:
判断患鼻咽癌与血型有无关系
分类
患癌者 健康人 合计
A型血
64 125 189
B型血
86 138 224
双向无序列联表:两个分类变量分类标志无数值大小 与先后顺序之分。
疗法 疗效 治愈 32 76 108 未愈 46 50 96 合计
不加牛黄 加牛黄 合计
78 126 204
设不加牛黄组治愈总体率为
,加牛黄组治愈总体率为 “疗法”与“疗效”独立
检验
即
H0:X与Y独立(即两组总体率相同)
实际频数Oij与理论频数Eij的差异是随机误差, 用 Pearson卡方统计量反映实际Oij与理论Eij吻合程度
O型血
130 210 340
AB型血
20 26 46
合计
300 499 799
第一行合计数,第四列合计数最小,最小理论频数
300 46 E14 17.27 5 799 H0:“患癌”与“血型”独立,H1:“患癌”与“血型”
不独立
2
642 862 N( 1) 799 i , j 1 Oi O j 300 189 300 224
不加牛黄 32 加牛黄 76 合计 108
疗效
治愈 46 50 9“疗法”与“疗效”独立(即两组治愈率相同 ) N=204>40
列联表独立性检验
例4:为研究不同的给药方式(口服与注射)和药的效果(有效与无效)是否有关, 进行了相应的抽样调查,调查的结果列在表中,根据所选择的193个病人的数据, 能否作出药的效果和给药方式有关的结论?
口服 注射 合计
有效 58 64 122
无效 40 31 71
合计 98 95 193
P(k≥k0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
99%把握认为A与B有关
10%把握认为A与B无关
90%把握认为A与B有关
没有充分的依据显示A与B有关,但也不能显示A与B无关
课题:选修2-3 8.4独立性检验
6、独立性检验的步骤
再冷的石头,坐上三年也会暖 !
第一步:H0: 吸烟和患病之间没有关系
第二步:列出2×2列联表
吸烟 不吸烟
总计
患病 a c
(1)根据实际问题需要的可信程度确定临界值 ;
k0
K (2)利用公式(1),由观测数据计算得到随机变量 的观测值; 2
(3)如果
,就以
的把握认为“X与Y有关系”;否则就
说样本观测k数据没k0有提供“X(与1Y有P关(系K”2 的充k分0 )证) 据1。00%
在实际应用中,要在获取样本数据之前通过下表确定临界值:
课题:选修2-3 8.4独立性检验
再冷的石头,坐上三年也会暖 !
8.4 列联表独立性分析案例
课题:选修2-3 8.4独立性检验
再冷的石头,坐上三年也会暖 !
问题: 数学家庞加莱每天都从一家面包店
8.4列联表独立性分析案例
课本例题 P 86
总结独立性检验的一般步骤:
(1)假设两个分类变量没有关系; (2)根据列联表和公式计算出K2的观测值; (3)把K2的值与临界值比较,确定X与Y有关的程度或无关 系.
【例 2 】 在吸烟与患肺癌这两个变量的独立性检验的
计算中,下列说法正确的是 ________ .
①若K2>6.635,则我们有99%的把握认为吸烟与患肺癌 有关系,即在100个吸烟的人中必有99人患有肺癌; ②由独立性检验可知,当有 99% 的把握认为吸烟与患肺 癌有关系时,我们说某人吸烟,那么他有99%的可能患 有肺癌; ③从统计量中求出有 95% 的把握认为吸烟与患肺癌有关 系,是指有5%的可能性使得判断出现错误.
变式训练 对电视节目单上的某一节目,部分观众
的态度如下表:
完全同意 反对 合计
男人
女人 合计
14
29 43
26
34 60
4063 103源自问能否在判错率为0.05的条件下认为观看这个电视节目 的观众与性别有关?
假设观看这个电视节目的观众与性别无关
解
2 103 × 14 × 34 - 29 × 26 由公式得 χ2= ≈1.224.因为 43×60×63×40
解:(1)根据题目所给数据得到如下列联表:
患心脏病 患其他病 总计
秃顶 不秃顶
总计
解:(1)根据题目所给数据得到如下列联表:
患心脏病 患其他病 秃顶 不秃顶 总计 214 451 665 175 597 772 总计 389 1 048 1 437
(2)根据列联表中的数据,得到
因此,在犯错误的概率不超过0.01的前提下, 认为秃顶与患心脏病有关系.
课堂练习
4.有两个分类变量X与Y的一组数据,由其列联表 计算得K2≈4.523,则认为X与Y有关系是错误的 可信度为( ) A.95% B.90% C.5% D.10%
第3节 第2课时 列联表与独立性检验--2025年高考数学复习讲义及练习解析
第2课时列联表与独立性检验课标解读考向预测1.通过实例,理解2×2列联表的统计意义.2.通过实例,了解2×2列联表独立性检验及其应用.预计2025年高考列联表、独立性检验可能会以实际问题为背景,与概率、随机变量的分布列及数字特征相结合命题,难度适中.必备知识——强基础1.分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.2.2×2列联表一般地,假设有两个分类变量X和Y,它们的取值均为0,1,其2×2列联表为XY合计Y=0Y=1X=0a b a+bX=1c d c+d合计a+c b+d a+b+c+d3.独立性检验(1)零假设:以Ω为样本空间的古典概型,设X和Y为定义在Ω上,取值于{0,1}的成对分类变量,H0:01P(Y=1|X=0)=P(Y=1|X=1).通常称H0为零假设或原假设.(2)χ2的计算公式:记n=a+b+c+d,则χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).(3)临界值:对于任何小概率值α,可以找到相应的正实数xα,使得后面关系成立:P(χ2≥xα)=α.我们称xα为α的临界值,这个临界值就可以作为判断χ2大小的标准,概率值α02越小,临界值xα越大.(4)基于小概率值α的检验规则是:当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;当χ2<xα时,我们没有充分证据推断H0不成立,可以认为X和Y独立.(5)应用独立性检验解决实际问题的主要环节①提出零假设H0:X和Y相互独立,并给出在问题中的解释;②根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较;③根据检验规则得出推断结论;④在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.根据χ2的值可以判断两个分类变量有关的可信程度,若χ2越大,则认为两分类变量有关的把握越大.1.概念辨析(正确的打“√”,错误的打“×”)(1)分类变量中的变量与函数中的变量是同一概念.()(2)2×2列联表是借助两个分类变量之间频率大小差异说明两个变量之间是否有关联.()(3)应用独立性检验的基本思想对两个变量间的关系作出的推断一定是正确的.()(4)若分类变量X,Y关系越密切,则由观测数据计算得到的χ2的观测值越小.()答案(1)×(2)√(3)×(4)×2.小题热身(1)(人教B选择性必修第二册4.3.2练习A T2改编)为了解某大学的学生是否爱好体育锻炼,用简单随机抽样方法在校园内调查了120位学生,得到如下2×2列联表:男女合计爱好a b73不爱好c25合计74则a-b-c=()A.7B.8C.9D.10答案C解析根据题意,可得c =120-73-25=22,a =74-22=52,b =73-52=21,∴a -b -c=52-21-22=9.(2)在下列两个分类变量X ,Y 的样本频数列联表中,可以判断X ,Y 之间有无关系的是()y 1y 2合计x 1a b a +b x 2c d c +d 合计a +cb +da +b +c +dA .|a a +b -b c +d |B .|c a +b -d c +d|C .|b a +b -c c +d |D .|a a +b -c c +d |答案D解析∵χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),则分类变量X 和Y 有关系时,ad 与bc 差距会比较大,由a a +b -c c +d =ac +ad -ac -bc (a +b )(c +d )=ad -bc (a +b )(c +d ),故a a +b 与cc +d 的值相差应该大,即|a a +b -c c +d |的大小可以判断X ,Y 之间有无关系.(3)已知P (χ2≥6.635)=0.01,P (χ2≥10.828)=0.001.在检验喜欢某项体育运动与性别是否有关的过程中,某研究员搜集数据并计算得到χ2=7.235,则根据小概率值α=________的χ2独立性检验,分析喜欢该项体育运动与性别有关.答案0.01解析因为6.635<7.235<10.828,所以根据小概率值α=0.01的χ2独立性检验,分析喜欢该项体育运动与性别有关.考点探究——提素养考点一分类变量的两种统计表示形式(多考向探究)考向1等高堆积条形图例1(2023·四川南充三诊)为考查A ,B 两种药物预防某疾病的效果,进行动物实验,分别得到如下等高堆积条形图,根据图中信息,下列说法最佳的是()A .药物B 的预防效果优于药物A 的预防效果B .药物A 的预防效果优于药物B 的预防效果C .药物A ,B 对该疾病均有显著的预防效果D .药物A ,B 对该疾病均没有预防效果答案B解析根据题干中两个等高堆积条形图知,药物A 实验显示不服药与服药时患病差异较药物B 实验显示明显,所以药物A 的预防效果优于药物B 的预防效果.【通性通法】在等高堆积条形图中,a a +b 与cc +d 相差越大,我们认为两个分类变量之间关系越强.【巩固迁移】1.(多选)现行普通高中学生在高一时面临着选科的问题,学校抽取了部分男、女学生意愿的一份样本,制作出如下两个等高堆积条形图:根据这两幅图中的信息,下列统计结论正确的是()A .样本中的女生数量多于男生数量B .样本中有两理一文意愿的学生数量多于有两文一理意愿的学生数量C .样本中的男生偏爱两理一文D .样本中的女生偏爱两文一理答案ABC解析由等高堆积条形图知,女生数量多于男生数量,故A 正确;有两理一文意愿的学生数量多于有两文一理意愿的学生数量,故B 正确;男生偏爱两理一文,故C 正确;女生中有两理一文意愿的学生数量多于有两文一理意愿的学生数量,故D 错误.故选ABC.考向22×2列联表例2(1)下面是一个2×2列联表,则表中a ,c 处的值分别为()X Y 合计y 1y 2x 1a 2573x 221b c合计d 49A .98,28B .28,98C .48,45D .45,48答案C解析由2×2列联表知a +25=73,b +25=49,b +21=c ,解得a =48,b =24,c =45.故选C.(2)假设两个分类变量X 和Y 的2×2列联表如下:X Y 合计y 1y 2x 1a 10a +10x 2c 30c +30合计a +c40100对于同一样本,以下数据能说明X 和Y 有关系的可能性最大的一组是()A .a =40,c =20B .a =45,c =15C .a =35,c =25D .a =30,c =30答案B解析χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=根据2×2列联表和独立性检验的相关知识,知当b ,d 一定时,a ,c 相差越大,a a +10与cc +30相差就越大,χ2就越大,即X和Y有关系的可能性越大,结合选项,知B中a-c=30与其他选项相比相差最大.【通性通法】在2×2列联表中,如果两个变量没有关系,则应满足ad-bc≈0.|ad-bc|越小,说明两个变量之间关系越弱;|ad-bc|越大,说明两个变量之间关系越强.【巩固迁移】2.(多选)有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀,得到列联表如下:班级数学成绩优秀非优秀合计甲班10b乙班c30合计105已知在全部105人中随机抽取1人,成绩优秀的概率为27,则下列说法正确的是()A.c=30,b=35B.c=15,b=50C.c=20,b=45D.由列联表可看出数学成绩与班级有关系答案CD解析依题意10+c105=27,解得c=20,由10+20+b+30=105,解得b=45.补全2×2列联表如下:班级数学成绩合计优秀非优秀甲班104555乙班203050合计3075105甲班学生数学成绩的优秀率为1055≈0.182,乙班学生数学成绩的优秀率为2050=0.4,乙班学生数学成绩的优秀率明显高于甲班学生数学成绩的优秀率,可以认为两班学生的数学成绩优秀率存在差异,所以数学成绩与班级有关.故选CD.考点二独立性检验的应用例3(2024·山西太原模拟)为进一步保护环境,加强治理空气污染,某市环保监测部门对市区空气质量进行调研,随机抽查了市区100天的空气质量等级与当天空气中SO2的浓度(单位:μg/m3),整理数据得到下表:SO2的浓度空气质量等级[0,50](50,150](150,475]1(优)28622(良)5783(轻度污染)3894(中度污染)11211若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”,根据上述数据,回答以下问题:(1)估计事件“该市一天的空气质量好,且SO2的浓度不超过150”的概率;(2)完成下面的2×2列联表;SO2的浓度空气质量[0,150](150,475]合计空气质量好空气质量不好合计(3)根据(2)中的列联表,依据小概率值α=0.01的独立性检验,能否据此推断该市一天的空气质量与当天SO2的浓度有关?解(1)由表格可知,该市一天的空气质量好,且SO2的浓度不超过150的天数为28+6+5+7=46,则“该市一天的空气质量好,且SO2的浓度不超过150”的概率P=46100=0.46.(2)由表格数据可得列联表如下,SO2的浓度空气质量[0,150](150,475]合计空气质量好461056空气质量不好242044合计7030100(3)零假设为H 0:该市一天的空气质量与当天SO 2的浓度无关.由(2)知χ2=100×(46×20-10×24)256×44×70×30≈8.936>6.635=x 0.01,根据小概率值α=0.01的独立性检验,我们推断H 0不成立,即认为该市一天的空气质量与当天SO 2的浓度有关,此推断犯错误的概率不超过0.01.【通性通法】独立性检验的一般步骤(1)根据样本数据制成2×2列联表;(2)根据公式χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算;(3)比较χ2与临界值的大小关系,作统计推断.【巩固迁移】3.(2022·全国甲卷)甲、乙两城之间的长途客车均由A 和B 两家公司运营,为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:准点班次数未准点班次数A 24020B21030(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),α0.1000.0500.010x α2.7063.8416.635解(1)根据表中数据,A 家公司共有班次260次,其中准点班次有240次,设A 家公司长途客车准点事件为M ,则P (M )=240260=1213;B 家公司共有班次240次,其中准点班次有210次,设B 家公司长途客车准点事件为N ,则P (N )=210240=78.故A 家公司长途客车准点的概率为1213,B 家公司长途客车准点的概率为78.(2)由题可得χ2=500×(240×30-20×210)2(240+20)×(210+30)×(240+210)×(20+30)≈3.205>2.706,根据临界值表可知,有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关.课时作业一、单项选择题1.如表是2×2列联表,则表中a ,b 的值分别为()y 1y 2合计x 1a 835x 2113445合计b4280A .27,38B .28,38C .27,37D .28,37答案A解析a =35-8=27,b =a +11=27+11=38.2.某课外兴趣小组通过随机调查,利用2×2列联表和χ2统计量研究数学成绩优秀是否与性别有关.计算得χ2=6.748,经查阅临界值表知P (χ2≥6.635)=0.010,则下列判断正确的是()A .每100名数学成绩优秀的人中就会有1名是女生B .若某人数学成绩优秀,那么他为男生的概率是0.010C .有99%的把握认为“数学成绩优秀与性别无关”D .在犯错误的概率不超过1%的前提下认为“数学成绩优秀与性别有关”答案D解析∵χ2=6.748>6.635,∴有99%的把握认为“数学成绩优秀与性别有关”,即在犯错误的概率不超过1%的前提下认为“数学成绩优秀与性别有关”.故选D.3.假设有两个分类变量X与Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表为y1y2合计x1101828x2m26m+26合计m+1044m+54则当整数m取________时,X与Y的关系最弱.()A.8B.9C.14D.19答案C解析在两个分类变量的列联表中,当|ad-bc|的值越小时,认为两个分类变量有关的可能性越小.令|ad-bc|=0,得10×26=18m,解得m≈14.4,又m为整数,所以当m=14时,X与Y的关系最弱.4.(2024·海南华侨中学模拟)某同学寒假期间对其30位亲属的饮食习惯进行了一次调查,列出了如下2×2列联表:偏爱蔬菜偏爱肉类合计50岁以下481250岁以上16218合计201030则可以说其亲属的饮食习惯与年龄有关的把握为()附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.α0.0500.0100.001xα 3.841 6.63510.828A.90%B.95% C.99%D.99.9%答案C解析根据列联表中数据,计算χ2=30×(4×2-8×16)212×18×20×10=10>6.635,可以说其亲属的饮食习惯与年龄有关的把握为99%.故选C.5.为了考查某种病毒疫苗的效果,现随机抽取100只小白鼠进行试验,得到如下2×2列联表:感染未感染合计服用104050未服用203050合计3070100附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.α0.100.050.0250.0100.0050.001xα 2.706 3.841 5.024 6.6357.87910.828根据以上数据,得到的结论正确的是()A.在犯错误的概率不超过2.5%的前提下,认为“小白鼠是否被感染与有没有服用疫苗有关”B.在犯错误的概率不超过1%的前提下,认为“小白鼠是否被感染与有没有服用疫苗有关”C.有95%的把握认为“小白鼠是否被感染与有没有服用疫苗有关”D.有95%的把握认为“小白鼠是否被感染与有没有服用疫苗无关”答案C解析依题意,χ2=100×(10×30-40×20)250×50×30×70=10021≈4.762,显然有3.841<4.762<5.024<6.635,所以有95%的把握认为“小白鼠是否被感染与有没有服用疫苗有关”,A,B,D不正确,C正确.6.假设有两个变量x与y的2×2列联表如下:y1y2x1a bx2c d对于以下数据,对同一样本能说明x与y有关系的可能性最大的一组为()A.a=20,b=30,c=40,d=50B.a=50,b=30,c=30,d=40C.a=30,b=60,c=20,d=50D.a=50,b=30,c=40,d=30答案B解析对于A,|ad-bc|=200;对于B,|ad-bc|=1100;对于C,|ad-bc|=300;对于D,|ad -bc|=300,显然B中|ad-bc|最大,该组数据能说明x与y有关系的可能性最大.7.为了解某社区60岁以上老年人使用手机支付和现金支付的情况,抽取了部分居民作为样本,统计其喜欢的支付方式,并制作出如下等高堆积条形图:根据图中的信息,下列结论中不正确的是()A.样本中多数男性喜欢手机支付B.样本中的女性数量少于男性数量C.样本中多数女性喜欢现金支付D.样本中喜欢现金支付的数量少于喜欢手机支付的数量答案C解析对于A,由题中右图可知,样本中多数男性喜欢手机支付,A正确;对于B,由题中左图可知,样本中的男性数量多于女性数量,B正确;对于C,由题中右图可知,样本中多数女性喜欢手机支付,C不正确;对于D,由题中右图可知,样本中喜欢现金支付的数量少于喜欢手机支付的数量,D正确.故选C.8.针对短视频热,某高校团委对学生性别和喜欢短视频是否有关联进行了一次调查,其中被调查的男生、女生人数均为5m(m∈N*),男生中喜欢短视频的人数占男生人数的45,女生中喜欢短视频的人数占女生人数的35.零假设为H0:喜欢短视频和性别相互独立.若依据α=0.05的独立性检验认为喜欢短视频和性别不独立,则m的最小值为()附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).α0.050.01x α3.8416.635A .7B .8C .9D .10答案C解析根据题意,不妨设a =4m ,b =m ,c =3m ,d =2m ,于是χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=10m ·(5m 2)25m ·5m ·7m ·3m =10m21,由于依据α=0.05的独立性检验认为喜欢短视频和性别不独立,根据表格可知10m 21≥3.841,解得m ≥8.0661,于是m 的最小值为9.二、多项选择题9.(2024·福建福州一中模拟)“一粥一饭,当思来之不易”,道理虽简单,但每年我国还是有2000多亿元的餐桌浪费,被倒掉的食物相当于2亿多人一年的口粮.为营造“节约光荣,浪费可耻”的氛围,某市发起了“光盘行动”.某机构为调研民众对“光盘行动”的认可情况,在某大型餐厅中随机调查了90位来店就餐的客人,制成如下所示的列联表,通过计算得到χ2的观测值为9.认可不认可40岁以下202040岁以上(含40岁)4010已知P (χ2≥6.635)=0.010,P (χ2≥10.828)=0.001,则下列判断正确的是()A .在该餐厅用餐的客人中大约有66.7%的客人认可“光盘行动”B .在该餐厅用餐的客人中大约有99%的客人认可“光盘行动”C .有99%的把握认为对“光盘行动”的认可情况与年龄有关D .在犯错误的概率不超过0.001的前提下,认为对“光盘行动”的认可情况与年龄有关答案AC解析∵χ2的观测值为9,且P (χ2≥6.635)=0.010,P (χ2≥10.828)=0.001,又9>6.635,但9<10.828,∴有99%的把握认为对“光盘行动”的认可情况与年龄有关,或者说,在犯错误的概率不超过0.010的前提下,认为对“光盘行动”的认可情况与年龄有关,故C正确,D错误;由表可知,认可“光盘行动”的人数为60,∴在该餐厅用餐的客人中认可“光盘行动”的比例为60×100%≈66.7%,故A正确,B错误.故选AC.9010.为了解阅读量多少与幸福感强弱之间的关系,一个调查机构根据所得到的数据,绘制了如下所示的2×2列联表(个别数据暂用字母表示):幸福感强幸福感弱合计阅读量多m1872阅读量少36n78合计9060150计算得χ2≈12.981,参照下表:α0.100.050.0250.0100.0050.001xα 2.706 3.841 5.024 6.6357.87910.828下列说法正确的是()A.根据小概率值α=0.010的独立性检验,可以认为“阅读量多少与幸福感强弱无关”B.m=54C.根据小概率值α=0.005的独立性检验,可以在犯错误的概率不超过0.5%的前提下认为“阅读量多少与幸福感强弱有关”D.n=52答案BC解析∵χ2≈12.981>7.879>6.635,∴根据小概率值α=0.010的独立性检验,可以在犯错误的概率不超过1%的前提下认为“阅读量多少与幸福感强弱有关”,根据小概率值α=0.005的独立性检验,可以在犯错误的概率不超过0.5%的前提下认为“阅读量多少与幸福感强弱有关”,∴A错误,C正确;∵m+36=90,18+n=60,∴m=54,n=42,∴B正确,D错误.故选BC.三、填空题11.某校为研究该校学生性别与体育锻炼的经常性之间的联系,随机抽取100名学生(其中男生60名,女生40名),并绘制得到如图所示的等高堆积条形图,则这100名学生中经常锻炼的人数为________.答案68解析这100名学生中经常锻炼的人数为60×0.8+40×0.5=68.12.长绒棉是世界上纤维品质最优的棉花,也是全球高端纺织品及特种纺织品的重要原料.新疆具有独特的自然资源优势,是我国最大的长绒棉生产基地,产量占全国长绒棉总产量的95%以上.新疆某农科所为了研究不同土壤环境下棉花的品质,选取甲、乙两地实验田进行种植.在棉花成熟后采摘,分别从甲、乙两地采摘的棉花中各随机抽取50份样本,测定其马克隆值,整理测量数据得到如下2×2列联表(单位:份),其中40≤a≤50且a∈N*.注:棉花的马克隆值是反映棉花纤维细度与成熟度的综合指标,是棉纤维重要的内在质量指标之一.根据现行国家标准规定,马克隆值可分为A,B,C三个级别,A级品质最好,B级为标准级,C级品质最差.A级或B级C级合计甲地a50-a50乙地80-a a-3050合计8020100当a=a0时,有99%的把握认为该品种棉花的马克隆值级别与土壤环境有关,则a0的最小值为________.附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.α0.0500.0100.001xα 3.841 6.63510.828答案46解析依题意,χ2≥6.635,即100×[a(a-30)-(50-a)(80-a)]250×50×80×20≥6.635,(10a-400)2≥2654,由于40≤a≤50且a∈N*,所以10a-400≥2654,a≥40+265410,因为45<40+265410<46,所以a0的最小值为46.四、解答题13.某城市地铁将于2024年6月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下:月收入(单位:百元)[15,25)[25,35)[35,45)赞成定价者人数123认为价格偏高者人数4812月收入(单位:百元)[45,55)[55,65)[65,75]赞成定价者人数534认为价格偏高者人数521(1)若以区间的中点值作为该区间内的人均月收入,求参与调查的人员中“赞成定价者”与“认为价格偏高者”的月平均收入的差距(结果保留两位小数);(2)由以上统计数据列出2×2列联表,依据小概率值α=0.01的独立性检验,可否认为“月收入以55百元为分界点对地铁定价的态度有差异”?附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.α0.10.050.010.005xα 2.706 3.841 6.6357.879解(1)“赞成定价者”的月平均收入为x1=20×1+30×2+40×3+50×5+60×3+70×41+2+3+5+3+4≈50.56.“认为价格偏高者”的月平均收入为x2=20×4+30×8+40×12+50×5+60×2+70×14+8+12+5+2+1=38.75,∴“赞成定价者”与“认为价格偏高者”的月平均收入的差距是x1-x2≈50.56-38.75=11.81(百元).(2)根据条件可得2×2列联表如下:对地铁定价的态度月收入合计不低于55百元的人数低于55百元的人数认为价格偏高者32932赞成定价者71118合计104050零假设为H0:月收入以55百元为分界点对地铁定价的态度无差异.χ2=50×(3×11-29×7)232×18×10×40≈6.27<6.635=x0.01,∴根据小概率值α=0.01的独立性检验,没有充分证据推断H0不成立,因此可以认为“月收入以55百元为分界点对地铁定价的态度无差异”.14.(2023·全国甲卷)一项试验旨在研究臭氧效应,试验方案如下:选40只小白鼠,随机地将其中20只分配到试验组,另外20只分配到对照组,试验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:g).试验结果如下:对照组的小白鼠体重的增加量从小到大排序为15.218.820.221.322.523.225.826.527.530.132.634.334.835.635.635.836.237.340.543.2试验组的小白鼠体重的增加量从小到大排序为7.89.211.412.413.215.516.518.018.819.219.820.221.622.823.623.925.128.232.336.5(1)计算试验组的样本平均数;(2)(ⅰ)求40只小白鼠体重的增加量的中位数m,再分别统计两样本中小于m与不小于m的数据的个数,完成如下列联表;<m≥m对照组试验组(ⅱ)根据(ⅰ)中的列联表,能否有95%的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异?附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),α0.1000.0500.010xα 2.706 3.841 6.635解(1)试验组的样本平均数为120×(7.8+9.2+11.4+12.4+13.2+15.5+16.5+18.0+18.8+19.2+19.8+20.2+21.6+22.8+23.6+23.9+25.1+28.2+32.3+36.5)=39620=19.8.(2)(ⅰ)依题意,可知这40只小白鼠体重的增加量的中位数是将两组数据合在一起,从小到大排序后第20位与第21位数据的平均数,第20位数据为23.2,第21位数据为23.6,所以m=23.2+23.62=23.4,故列联表为<m≥m对照组614试验组146(ⅱ)由(ⅰ)可得,χ2=40×(6×6-14×14)220×20×20×20=6.4>3.841,所以能有95%的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异.。
2025年高考数学一轮复习(新高考版)第9章 §9.4 列联表与独立性检验
∴根据小概率值α=0.001的独立性检验,推断H0不成立,即认为“数 学成绩达标”与“运动达标”有关.
思维升华
独立性检验的考查,往往与概率和抽样统计图等一起考查,这类问题 的求解往往按各小题及提问的顺序,一步步进行下去,是比较容易解 答的,考查单纯的独立性检验往往用小题的形式,而且χ2的公式一般 会在原题中给出.
得到如表数据:
数学成 [30,50) [50,70) [70,90) [90,110) [110,130) [130,150]
绩(分)
人数(人) 25
125
350
300
150
50
运动达标
10
45
145
200
107
43
的人数(人)
约定:平均每天进行体育运动的时间不少于60分钟的为“运动达标”, 数学成绩排在年级前50%以内(含50%)的为“数学成绩达标”. (1)求该中学高三年级本次月考数学成绩的65%分位数;
α 0.1 0.05 0.01 0.005 0.001 xα 2.706 3.841 6.635 7.879 10.828
思考辨析
判断下列结论是否正确(请在括号中打“√”或“×”)
(1)2×2列联表中的数据是两个分类变量的频数.( √) (2)事件A和B的独立性检验无关,即两个事件互不影响.( × ) (3)χ2的大小是判断事件A和B是否相关的统计量.( √ )
(3)请根据已知数据完成下列列联表,并根据小概率值α=0.001的独立性 检验,分析“数学成绩达标”是否与“运动达标”相关.
运动达标人数 运动不达标人数
合计
数学成绩达标人数
数学成绩不达标人数
nad-bc2 附:χ2=a+bc+da+cb+d(n=a+b+c+d).
课件1:§8.3 列联表与独立性检验
反思感悟 用χ2进行“相关的检验”步骤 (1)零假设:即先假设两变量间没关系. (2)计算χ2:套用χ2的公式求得χ2值. (3)查临界值:结合所给小概率值α查得相应的临界值xα. (4)下结论:比较χ2与xα的大小,并作出结论.
跟踪训练2.某电视台联合相关报社对“男女同龄退休”这一公众关注 的问题进行了民意调查,数据如下表所示:
=1
000×(198×109-217×476)2 415×585×674×326
≈125.161>10.828 又 P(K2≥10.828)≈0.001,
故在犯错误的概率不超过 0.001 的前提下认为对“男女同龄退
休”这一问题的看法与性别有关.
命题角度2 有关“无关的检验”
例3.对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进 行了3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:
思考 独立性检验与反证法的思想类似,那么独立性检验是反证 法吗? 【答案】不是.因为反证法不会出错,而独立性检验依据的是小概 率事件几乎不发生.
题型探究 探究一 等高堆积条形图的应用 例 1.某校对学生课外活动进行调查,结果整理成下表:试用等高 条形图分析,喜欢体育还是文娱与性别是否有关系?
男生 女生 合计
反思感悟 独立性检验解决实际问题的主要环节 (1)提出零假设H0:X和Y相互独立,并给出在问题中的解释. (2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较. (3)根据检验规则得出推断结论. (4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析 X和Y间的影响规律.
体育 21 6 27
文娱 23 29 52
合计 44 35 79
解:其等高条形图如图所示:
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
拒绝域形式Q2 c.
因为ˆi
ni n
,ˆ j
n j n
.
r
Q2
s
nij
nin j n
2
r
s
2
nnij nin j
i1 j1
nin j
i1 j1
nnin j
如果H0成立,Qn2渐近服从自由度为(r -1() s -1)
的 2分布.
例1 随机抽取某校男生35名,女生31,进行
体育达标考核,结果如下表 问体育达标水平是
2.5 列联表的独立检验
一、二维r 列s联表
设A, B为两个定性变量,A有r个不同水平(A1,A2 , Ar ),
B有s个不同水平(B1,B2 , Bs ).观测n次, 各水平组合(Ai ,Bj )
出现频数为nij. 列表如下: 二维 r s 列联表
s
令:ni nij j 1
A
B B1,
B2 ,
著的差异.
即有 n11 n21
n1 n2+
如果p1 p2, 表示有属性A的个体中有属性B的比例高
即
n11 n1
n21 n2+
如果p1 p2,表示有属性A的个体中有属性B的比例低
即
n11 n21
n1 n2+
四表格的检验问题, 即属性A和B的独立性检验问题有
(1) H0 : p1=p2, H1 : p1 p2 (2) H0 : p1=p2, H1 : p1 p2 (3) H0 : p1=p2, H1 : p1 p2
X-squared = 0.0057, df = 1, p-value = 0.9397 因此在0.05显著性水平下,接受原假设.
92页例2.14自己看
在使用Pearson 独2立性检验时, 要注意格子
的期望频数小于5的格子数不超过总格子数的20%, 且没有一个格子的期望频数小于1
不满足时, 用Pearson近似效果很差, 一般采用 Fisher精确检验.
A1
n11
n12
Bs
合计
n n1s
1
r
n j nij i 1
rs
n
nij =n
i1 j 1
A2
n21
n22
Ar
nr1 nr 2
合计 n1
n 2
n n2s
2
nrs nr
ns n n
为了调查吸烟是否对肺癌有影响,对632位×2列 肺癌患者及43位非患者(对照组)调查了联表
其中的吸烟人数.
Fisher精确检验的统计量
假设边缘频数 n1,n2,n1,n2 都固定
Nij是第i行j列格子的频数统计量
Nij服从超几何分布
P(N =n ) CCC ij ij
ni1 ni 2 n1 n2
35 28 14.85 35 38 20.15
66
66
31 28 13.15 66
31 38 17.85 66
Q2 (15 14.85)2 (20 20.15)2 (13 13.15)2 (18 17.85)2
14.85
20.15
13.15
17.85
0.006
(3)统计决断: 首先确定自由度 df ,本例
df
=1,查 df
=1
的
2
表,
2 (
0.05() 1)=3.84,故有
2 < . 2(0.05() 1)
因此在0.05显著性水平下,接受原假设.
其结论为:体育达标水平与性别无关.
R函数chisq.test ( )
R程序如下 >x<-matrix(c(15,13,20,18),nr = 2) >chisq.test(x, correct=F) 输出结果为 Pearson's Chi-squared test data: x
否与性别有关?
r
Q2
s
nij
nin j n
2
i1 j1
nin j
体育达标考核情况表 达 标 未 达 标合 计
男
15
20
35
女
13
18
31
n
(1)建立假设
H
:体育达标水平与性别无关
0
合 计 28
38
66
H1:体育达标水平与性别有关
(2)计算
Q
2
值,理论频
数
n
i
j
=
ni n n
j
估计为:
A
B B1,
B2 ,
A1
11
12
A2
21
22
Ar
r1 r2
j 1 2
B s
i
s
1s
1
i ij , i 1, 2,
j 1
,r
2s
2
r
j ij , j 1, 2, , s.
rs
r
s 1
i 1 rs
1 ij. i1 j 1
若A, B独立 ij i j ,i 1, 2 r, j 1, 2, s.
2.5.2 Fisher精确检验
Fisher精确检验对于单元频数小的表格特别适用 四表格的Fisher精确检验
频数四表格
B
A
n11
A
n21
n+1
对应的概率四表格
B
A
p11
A
p21
p+1
B 合计
n12
n1+
n22
n2+
n+2
n++
B 合计
p12
p1+
p22
p2+
p+2 1
假设边缘频数 n1,n2,n1,n2 固定
吸烟 不吸烟
总计
吸烟与肺癌列联表
患肺癌 不患肺癌
60
32
3
11
63
43
总计 92 14 106
二、二维r 列s联表的独立性检验
设A, B为随机变量,A取值A1,A2 , Ar ,
B取值为B1,B2
,
Bs
.取值(Ai
,B
j
)的概率为
,
ij
i , j为A, B的边缘分布. 列表如下:
r s 列联表的联合及边缘分布列
检验基本思想:
如果H
0成立,n较大时,理论频数n
i
与相应的
j
观测频数nij相差均不应很大。
H0成立
n 检验统计量
r
Q2
r
s
(nij
-n
i
)i21
j
n i1 j1
i j
ij n ij n i
s (观测频数-理论频数)2
j 1
理论频数
称为Pearson 2 统计量
j
.
如果H 0成立,Q2的值应较小.
n11,n21 分别服从二项分布 B(n1+,p1)和B(n2+,p2 ) 其中,p1=P(B | A), 表示有属性A的个体中有属性B的条件概率
p2 P(B | A)
表示没有属性A的个体中有属性B的条件概率
如果p1=p2, 则属性A和属性B相互独立
即有属性A的个体中有属性B的个体的频率与没有
属性A的个体中有属性B的个体的频率应该没有显
原假设 H0:A, B独立
即为ij i j ,i 1, 2 , r, j 1, 2, , s成立.
备则假设 H1:A, B不相互独立
即为至少(i, j), 使ij i j .
(A, B)的观测值为对应的列联表(观测次数n),
nij为观测频数,n ij 理论频数.
H0成立,即nij ni j成立,对i 1, 2 , r, j 1, 2, , s.