课件8:§1.2 独立性检验的基本思想及其初步应用
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
命题方向2 ⇨独立性检验的应用
典例 2 在500人身上试验某种血清预防感冒的作用,把他
们一年中的感冒记录与另外500名未用血清的人的感冒记录作
比较,结果如表所示.问:能否在犯错误的概率不超过1%的
前提下认为该种血清能起到预防感冒的作用.
未感冒
感冒
合计
使用血清 未使用血清
合计
258
242
500
216
『规律方法』 通过等高条形图可以粗略地直观判断两个分 类变量是否有关系,一般地,在等高条形图中,a+a b与c+c d 相差越大,两个分类变量有关系的可能性就越大.
〔跟踪练习1〕 某学校对高三学生作了一项调查发现:在平时的模拟 考试中,性格内向的学生426人中有332人在考前心情 紧张,性格外向的学生594人中有213人在考前心情紧 张,作出等高条形图,利用图形判断考前心情紧张与 性格类别是否有关系.
握认为该种血清能起到预防感冒的作用.
『规律方法』 独立性检验的步骤: 第一步,确定分类变量,获取样本频数,得到列联表. 第二步,根据实际问题的需要确定容许推断“两个分类变量 有关系”犯错误概率的上界 α,然后查表确定临界值 k0. 第三步,利用公式 K2=(a+b)(cn+(add-)(ab+c)c2)(b+d)计算随机变 量 K2 的观测值 k0.
2.等高条形图
(1)等高条形图和表格相比,更能直观地反映出两个分类变量
间是否__相__互___影__响___,常用等高条形图表示列联表数据的
_频__率__特___征_.
a
c
(2)观察等高条形图发现_a_+__b__和__c_+__d__相差很大,就判断
两个分类变量之间有关系.
3.独立性检验
定义 利用随机变量 K2 来判断“两个分类变量有关系”的方法称为独立性检验 公式 K2=a+bcn+add-ab+cc2b+d,其中 n=__a_+__b_+__c_+__d__
4.网络对现代人的生活影响较大,尤其是对青少年,为 了解网络对中学生学习成绩的影响,某地区教育主管部 门从辖区初中生中随机抽取了1000人调查,发现其中经 常上网的有200人,这200人中有80人期末考试不及格, 而另外800人中有120人不及格.利用图形判断学生经常 上网与学习成绩有关吗?
[解] 根据题目所给的数据得到如下2×2列联表:
第四步,作出判断.如果k≥k0,就推断“X与Y有关系”,这 种推断犯错误的概率不超过α,否则就认为在犯错误的概 率不超过α的前提下不能推断“X与Y的关系”,或者在样本 数据中没有发现足够证据支持结论“X与Y有关系”.
〔跟踪练习2〕
“十一”黄金周前某地的一旅游景点票价上浮,黄金周过后,
统计本地与外地来的游客人数,与去年同期相比,结果如下:
§1.2 独立性检验的基本思想及其初步应用
情境导入
饮用水的质量是人类普遍关心的问 题.据统计,饮用优质水的 518 人中,身体 状况优秀的有 466 人,饮用一般水的 312 人 中,身体状况优秀的有 218 人,人的身体健康状况与饮 用水的质量之间有关系吗?
知识梳理 1.分类变量和列联表 (1)分类变量: 变量的不同“值”表示个体所属的_不__同__类__别____,像这样 的变量称为分类变量.
反证法不成功
接受原假设
3.独立性检验与反证法的异同 独立性检验的思想来自于统计中的假设检验思想,它与反证法类 似.假设检验和反证法都是先假设结论不成立,然后根据是否能够推 出“矛盾”来断定结论是否成立.但二者“矛盾”的含义不同,反证法中 的“矛盾”是指一种不符合逻辑事情的发生,而假设检验中的“矛盾”是 指一种不符合逻辑的小概率事件的发生,即在结论不成立的假设下, 推出有利于结论成立的小概率事件发生.我们知道小概率事件在一次 试验中通常是不会发生的,若在实际中这个事件发生了,说明保证这 个事件为小概率事件的条件有问题,即结论在很大的程度上应该成 立.其基本步骤如下:
〔跟踪练习3〕 调查者通过询问男女大学生在购买食品时是否看营养说明得 到的数据如下表所示.能否在犯错误的概率不超过0.10的前 提下认为是否看营养说明与性别有关系?
男大学生 女大学生
合计
看营养说明 23 9 32
不看营养说明 32 15 57
合计 55 34 89
[解] 根据 2×2 列联表中数据由公式计算得 K2=89×(5253××3245×)3(-2×3527×9)2≈2.149<2.706, 所以在犯错误的概率不超过 0.10 的前提下不能认为看营养 说明与男女性别有关.
可以通过P(k≥6.635)≈0.01来评价假设不合理的程度,计算出 k>6.635,说明假设不合理的程度约为99%,即两个分类变量 有关这一结论成立的可信度为99%,不合理的程度可查下表 得出:
P(K2≥k0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
列联表
优秀
不优秀
总计
甲班
10
35
45
乙班
7
38
45
总计
17
73
90
试问能有多大把握认为“成绩与班级有关系”?
[错解] 由公式得:K2=90×17×107×3×7-453×5×45382=56.86, 56.86>6.635 所以有 99%的把握认为“成绩与班级有关系”.
[辨析] 由于对 2×2 列联表中 a,b,c,d 的位置不清楚, 在代入公式时代错了数值导致计算结果的错误. [正解] K2=90×17×107×3×384-5×7×45352=0.653, 0.653<2.706, 所以没有充分证据认为成绩与班级有关.
284
500
474
526
1 000
[解] 假设感冒与是否使用该种血清没有关系.
由列联表中的数据,求得 K2 的观测值为
k=1
000×(258×284-242×216)2 474×526×500×500 ≈7.075.
∵k=7.075≥6.635,
查表得 P(K2≥6.635)=0.01,
故我们在犯错误的概率不超过 1%的前提下,即有 99%的把
A.0.25
B.0.75
C.0.025
D.0.975
[解析] 通过查表确定临界值k.当k>k0=5.024时,推 断“X与Y”有关系这种推断犯错误的概率不超过0.025.
3.春节期间,“厉行节约,反对浪费”之风悄然吹开.某市通过随机询问 100名性别不同的居民是否能做到“光盘”,得到如下表格:
பைடு நூலகம்
做不到“光盘”
k=7
645×(1 407×2 065-2 842×1 331)2 4 249×3 396×2 738×4 907
≈30.35>6.635.
所以在犯错误的概率不超过 0.01 的前提下认为票价上浮
后游客人数与所处地区有关系.
准确掌握公式中的参数含义
典例 3 有甲、乙两个班级进行一门考试,按照学生考 试成绩优秀和不优秀统计后,得到如下的列联表班级与成绩
[解] 作列联表如下:
性格内向
考前心情紧张
332
考前心情不紧张
94
总计
426
性格外向 213 381 594
总计 545 475 1 020
相应的等高条形图如图所示:
图中阴影部分表示考前心情紧张与考前心情不紧张中 性格内向的比例,从图中可以看出考前紧张的样本中性格内 向占的比例比考前心情不紧张样本中性格内向占的比例高, 可以认为考前紧张与性格类型有关.
①确定 a,根据实际问题的需要,确定容许推断“两个分类变量有关系” 犯错误概率的上界 α,然后查表确定_临__界__值__K_0__. ②计算 K2,利用公式计算随机变量 K2 的_观__测__值__k__. 具体 ③下结论,如果__k≥__K__0,就推断“X 与 Y 有关系”,这种推断犯__错__误__的__概__率__ 步骤 不超过 α;否则,就认为在犯错误的概率不超过 α 的前提下不能推断“X 与 Y 有关系”,或者在样本数据中__没__有__发__现__足__够__证__据___支持结论“X 与 Y 有关系”
不及格 及格 总计
经常上网 80 120 200
不经常上网 120 680 800
总计 200 800 1000
得出等高条形图如图所示:
比较图中阴影部分的高可以发现经常上网不及格的频率明显高于不 经常上网不及格的频率,因此可以认为经常上网与学习成绩有关.
互动探究
命题方向1⇨等高条形图的应用
• 典例 1 从发生交通事故的司机中抽取2 000名司机作随 机样本,根据他们血液中是否含有酒精以及他们是否对事
(2)列联表: ①定义:列出的两个分类变量的_频__数__表__称为列联表.
②2×2列联表. 一般地,假设有两个分类变量X和Y,它们的取值
分别为{x1,x2}和{y1,y2},其样本频数列联表(称 为2×2列联表)为
x1 x2 总计
y1 a c a+c
y2 b d b+d
总计 a+b c+d a+b+c+d
2.反证法与假设检验的对照表
反证法
假设检验
要证明结论 A 在 A 不成立的前提下进行推理
备选假设 H1 在 H1 不成立,即 H0 成立的条件下进行推
理
推出矛盾,意味着结论 A 成立
推出有利于 H1 成立的小概率事件发生,意 味着 H1 成立的可能性
没有找到矛盾,不能对 A 下任何结论,即 推出有利于 H1 成立的小概率事件不发生,
本地
外地
合计
去年
1 407
2 842
4 249
今年 合计
1 331 2 738
2 065 4 907
3 396 7 645
能否在犯错误的概率不超过 0.01 的前提下认为票价上浮后 游客人数与所处地区有关系?
[解] 按照独立性检验的基本步骤,假设票价上浮后游客
人数与所处地区没有关系.
因为
K2
的观测值
能做到“光盘”
男
43
9
女
32
16
附: P(K2≥k) k
0.10 2.706
0.05 3.841
0.025 5.024
K2=a+bcn+add-ab+cc2b+d.
参照附表,得到的正确结论是__③____.(只填正确的序号)
①在犯错误的概率不超过 1%的前提下,认为“该市居民能否做到‘光盘’ 与性别有关”;
故负有责任将数据整理如下:
有责任
有酒精
650
无酒精
700
总计
1 350
无责任 150 500 650
总计 800 1 200 2 000
试分析血液中含有酒精与对事故负有责任是否有关系.
[解] 作等高条形图如下,图中阴影部分表示有酒精负责 任与无酒精负责任的比例,从图中可以看出,两者差距较 大,由此我们可以在某种程度上认为“血液中含有酒精与对 事故负有责任”有关系.
独立性检验的基本思想
1.独立性检验的基本思想 独立性检验的基本思想是要确认“两个分类变量有关系”这一 结论成立的可信程度,首先假设该结论不成立,即假设“两 个分类变量没有关系”成立,在该假设下我们构造的随机变 量K2应该很小,如果由观测数据计算得到的K2的观测值k很 大,则在一定程度上说明假设不合理,根据随机变量K2的含 义,
②在犯错误的概率不超过 1%的前提下,认为“该市居民能否做到‘光盘’ 与性别无关”;
③有 90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”; ④有 90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”.
[解析] 由 2×2 列联表得到 a=43,b=9,c=32,d=16,则 a+b =52,c+d=48,a+c=75,b+d=25,ad=688,bc=288,n=100. 代入 K2=(a+b)(cn+(add-)(ab+c)c2)(b+d), 得 K2=10502××(4688×87-5×22858)2≈3.419. 因为 2.706<3.419<3.841. 所以有 90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”.
预习自测
1.对于分类变量X与Y的随机变量K2的观测值k,下列说法
正确的是( B )
A.k越大,推断“X与Y有关系”,犯错误的概率越大 B.k越小,推断“X与Y有关系”,犯错误的概率越大 C.k越接近于0,推断“X与Y无关”,犯错误的概率越大 D.k越大,推断“X与Y无关”,犯错误的概率越小
2.利用独立性检验来考虑两个分类变量X和Y是否有 关系时,通过查阅临界值表来确定断言“X与Y有关系” 的可信度,如果k>5.024,那么就推断“X和Y有关系”, 这种推断犯错误的概率不超过( C )