独立性检验
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.在一次恶劣气候的飞行航程中调查男女乘客在机上晕机
的情况如下表所示:
晕 机 不晕机 合 计
男 性 24
31
55
女性 8
26
34
合 计 32
57
89
据此资料,你是否认为在恶劣气候飞行中男性比女性更容
易晕机?
解:根据列联表中所给的数据作出等高条形图,如图所 示.假设晕机与性别有关,则从画出的等高条形图中我们可以 看出:男乘客中晕机所占的比例约为 0.436,女乘客中晕机所占 的比例约为 0.235,两者的差是|0.436-0.235|=0.201,差值较大, 因而我们可以认为晕机与男女性别是有关的.
0.10
0.05
0.02 5
0.01 0
0.00 5
0.00 1
k0
0.45 0.70 1.32 2.07 2.70 3.84 5.02 6.63 7.87 10.8 5 8 3 2 6 1 4 5 9 28
②利用随机变量 K2 的计算公式,求 K2 的观测值 k. ③如果 k≥k0,就推断“X 与 Y 有关系”,这种推断犯错误 的概率不超过 α.否则,就认为在犯错误的概率不超过 α 的前提 下不能推断“X 与 Y 有关系”,或者在样本数据中没有发现足 够证据支持结论“X 与 Y 有关系”.通常认为 k≤2.706 时,样 本数据就没有充分的证据显示“X 与 Y 有关系”.
典例剖析
题型一 用等高条形图判断两个分类变量的相关性 【例 1】 在 500 人身上试验某种血清预防感冒的作用,把 一年中的记录与另外 500 个未用血清的人作比较,结果如下:
未感冒 感 冒 合 计 试 验 252 248 500 未试验 224 276 500 合 计 476 524 1 000 试用等高条形图分析血清是否能起到预防感冒的作用.
待企业改革态度的关系,经过调查得到如下列联表:
积极支持 不太支持 总
企业改革 企业改革 计
工作积极 54
40 94
工作一般 32
63 95
总计
86
103 189
根据列联表的独立性检验,能否在犯错误的概率不超过
0.005 的前提下,认为工作态度与对待企业改革态度之间有关
系?
解:由列联表中的数据,得 K2 的观测值为 k=1899×4×549×5×638-6×401×03322≈10.759>7.879. 因此,在犯错误的概率不超过 0.005 的前提下,认为工作态 度与对待企业改革态度之间有关系.
题型二 独立性检验 【例 2】 某聋哑研究机构对聋哑关系进行抽样调查,在耳 聋的 657 人中有 416 人哑,而另外不聋的 680 人中有 249 人 哑.你能运用这组数据得出相应的结论吗?
思路点拨:先列出 2×2 列联表,再计算 K2 的值,运用独 立性检验得出结论.
解:根据题目所给数据得到如下列联表: 哑 不 哑合 计
由列联表中的数据,得 K2 的观测值为
k=1
500×982×17-8×4932 990×510×1 475×25
≈13.097>10.828.
因此,在犯错误的概率不超过 0.001 的前提下,认为质量
监督员甲在或不在生产现场与产品质量好坏有关系.
方法点评:利用图形来判断两个变量之间是否有关系,可 以画出等高条形图,仅从图形上只可以粗略地估计两个分类变 量的关系,可以结合所求的数值来进行比较.作图应注意单位 统一,图形准确.但图形不能给我们两个分类变量是否有关的 精确判断,若要作出精确的判断,还应作独立性检验的有关计 算.
一个随机变量 K2=__a_+__b__c_+__d__a_+__c___b_+__d_______,
其中 n=_a_+__b_+__c_+__d____为样本容量. 像 这 种 利 用 随 机 变 量 ___K__2___ 来 判 断 两 个 分 类 变 量
__有__关__系__的方法称为独立性检验.
2.反证法与独立性检验有什么区别?
【答案】(1)反证法原理——在假设 H0 下,如果推出一个矛 盾,就证明ห้องสมุดไป่ตู้ H0 不成立.
(2)独立性检验原理——在假设 H0 下,如果出现一个与 H0 相矛盾的小概率事件,就推断 H0 不成立且该推断犯错误的概率 不超过小概率.
预习测评 1.对两个分类变量 A,B 的下列说法中,正确的个数为( ) ①A 与 B 无关,即 A 与 B 互不影响;②A 与 B 关系越密切, 则 K2 的值就越大;③K2 的大小是判定 A 与 B 是否相关的唯一 依据 A.1 B.2 C.3 D.0
2.判断两变量间是否有关系的方法 (1)二维条形图 利用二维条形图,可以粗略地判断两个变量之间是否有关 系(但这种判断无法精确地给出所得结论的可靠程度),方法如 下: 在二维条形图中,可以估计满足条件 X=x1 的个体中具有 Y =y1 的个体所占的比例a+a b,也可以估计满足条件 X=x2 的个
思路点拨:由列联表画出等高条形图,并进行分析,再利 用独立性检验作出判断.
解:根据列联表中所给的数据作出等高条形图,如图所示.
假设血清与预防感冒有关,则从画出的等高条形图可以看 出,试验的个体中感冒的个体所占的比例为 0.496,未试验的个 体中感冒的个体所占的比例为 0.552,两者的差别是|0.496- 0.552|=0.056,两者相差太小,因而血清对预防感冒有关系的假 设不成立,从而看出血清对预防感冒的作用不够明显,也就是 说血清对预防感冒几乎没有作用.
【答案】A
2.在列联表中,哪两个比值相差越大,两个分类变量之间 的关系越强( )
A.a+a b与c+c d B.c+a d与a+c b C.a+a d与b+c c D.b+a d与a+c c
【答案】A 【解析】∵a+a b-c+c d=a+|adb-cb+c| d,∴a+a b与c+c a相差 越大,关系越强.
误区解密 公式记忆不准确,计算错误
【例 4】 为考察某种药物预防疾病的效果,进行动物试验,
得到如下的列联表:
药物效果试验列联表
患 病 未患病
服用药 10
45
没服用药 20
30
请问有多大把握认为该药有效?
错解:k=105×55×105×0×453-0×207×5 302 ≈0.381 8<0.455, ∴在犯错误的概率大于 0.5 的前提下认为该药有效. 错因分析:K2=a+bcn+add-ab+cc2b+d,而错解中误将(ad -bc)2 用成(ab-cd)2. 正解:k=105×55×105×0×303-0×207×5 452≈6.11>5.024, ∴在犯错误的概率不超过 0.025 的前提下认为该药物有效. 纠错心得:在判断两个分类变量的可信程度时要特别注意
试根据表格填空:
(1)①______2_5_______;②_____1_6______;
③_____1__0_5______;④_____1_8_7_______; ⑤____2__2_8_______;
(2)A 与 B___独__立_________ (填“独立”或“不独立”).
要点阐释
1.独立性检验的基本思想 利用随机变量 K2 来确定是否能以一定把握认为“两个分类 变量有关系”的方法称为两个分类变量的独立性检验,独立性 检验的基本思想类似于反证法.要确认“两个分类变量有关 系”这一结论成立的可信程度,首先假设该结论不成立,如果 由观测数据计算得到的 K2 的观测值 k 很大,则在一定程度上说 明假设不合理.
x2
c
d
c+d
总计 a+c b+d a+b+c+d
像上表这样列出的两个分类变量的_频__数__表___称为列联表.
在列联表中,如果两个分类变量没有关系,则应满足 ad-
bc≈0.因此|ad-bc|越小,说明两个分类变量之间关系越弱;|ad
-bc|越大,说明两个分类变量之间关系越强.
2.独立性检验
为了使不同样本容量的数据有统一的评判标准,我们构造 nad-bc2
3.独立性检验所采用的思路是:要研究 A,B 两类型变量 彼此相关,首先假设这两类变量彼此__无__关____,在此假设下构 造随机变量 K2.如果 K2 的观测值较大,那么在一定程度上说明 假设__不__成__立__.
4.给出 2×2 列联表如下表所示:
B A
B1
B2
总计
A1 98 ① 123 A2 89 ② ③ 总计 ④ 41 ⑤
聋 416 241 657 不 聋 249 431 680 合 计 665 672 1 337 根据列联表中数据得到 K2=1 3376×654×166×724×316-572×496×802412≈95.29>10.828. 所以我们可以在犯错误的概率不超过 0.001 的前提下说聋 哑有关系.
2.某大型企业人力资源部为了研究企业员工工作态度和对
自学导引
1.2×2 列联表 (1)分类变量:变量的不同“值”表示个体所属的不__同__类___别_, 这类变量称为分类变量.
(2)2×2 列联表.
假设有两个分类变量 X 和 Y,它们的取值分别为{x1,x2}
和{y1,y2},其样本频数列联表(也称为 2×2 列联表)为:
y1 y2
总计
x1
a
b
a+b
计算的准确度,准确代数、准确计算、准确比较、准确下结论.
课堂总结
1.所谓独立性检验,就是根据采集样本的数据,先利用等 高条形图粗略判断两个分类变量是否有关系,再利用公式计算 K2 的值,比较与临界值的大小关系,来判定事件 x 与 y 是否无 关的问题.
题型三 独立性检验的综合应用 【例 3】 某生产线上,质量监督员甲在生产现场时,990 件产品中有合格品 982 件,次品 8 件;不在生产现场时,510 件产品中有合格品 493 件,次品 17 件.试利用图形判断监督员 甲在或不在生产现场对产品质量好坏有无影响.能否在犯错误 的概率不超过 0.001 的前提下认为质量监督员甲在或不在生产 现场与产品质量好坏有关系?
自主探究 1.如何理解分类变量?
【答案】(1)这里的“变量”和“值”都应作为“广义”的 变量和值来理解.例如,对于性别变量,其取值有“男”和 “女”两种,这里的“变量”指的是“性别”,这里的“值” 指的是“男”或“女”.因此,这里说的“变量”和“值”不 一定是取具体的数值.
(2)在现实生活中,分类变量是大量存在的.例如,吸烟变 量有吸烟与不吸烟两种类别,而国籍变量则有多种类别.
体中具有 Y=y1 的个体所占的比例c+c d.这两个比例的值相差越 大,有关系的可能性就越大.
(2)独立性检验(精确判断) 具有实施步骤如下: ①根据实际问题的需要确定容许推断“两个分类变量有关 系”犯错误概率的上界 α,然后查下表确定临界值 k0.
P(K2≥k0)
0.50
0.40
0.25
0.15
解:相应的等高条形图如下图所示.
图中两个深色条的高分别表示司机血液中有酒精和无酒精 样本中对事故负有责任的频率.从图中可以看出,司机血液中 有酒精样本中对事故负有责任的频率明显高于司机血液中无酒 精样本中对事故负有责任的频率.由此可以认为司机血液中含 有酒精与对事故负有责任有关系.
由列联表中的数据,得 K2 的观测值为 k=2 00800×0×61502×005×001-35105×0×6570002≈114.910>10.828. 因此,在犯错误的概率不超过 0.001 的前提下,认为司机血 液中含有酒精与对事故负有责任有关系.
3.为研究司机血液中含有酒精与对事故负有责任是否有关 系,从死于汽车碰撞事故的司机中随机抽取 2 000 名司机,得到 如下列联表:
有责任 无责任 总 计 有酒精 650 150 800 无酒精 700 500 1 200 总 计 1 350 650 2 000 试利用图形分析司机血液中含有酒精与对事故负有责任是 否有关系.根据列联表的独立性检验,能否在犯错误的概率不 超过 0.001 的前提下认为二者有关系?
思路点拨:首先作出数据的列联表,再由列联表画出条形
图,并计算 K2 的值,最后运用独立性检验得出结论.
解:根据题目所给数据得如下 2×2 列联表:
合格品数 次品数 总 计
甲在生产现场
982
8
990
甲不在生产现场 493
17
510
总计
1 475
25 1 500
相应的等高条形图如图所示: 图中两个深色条的高分别表示甲在生产现场和甲不在生产 现场样本中次品数的频率.从图中可以看出,甲不在生产现场 样本中次品数的频率明显高于甲在生产现场样本中次品数的频 率.因此可以认为质量监督员甲在或不在生产现场与产品质量 好坏有关系.