学案6:3.1 独立性检验

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

3.1独立性检验
学习目标:1.了解分类变量、2×2列联表、随机变量K2的意义.2.通过对典型案例的分析,了解独立性检验的基本思想方法.(重点)3.通过对典型案例的分析,了解两个分类变量的独立性检验的应用.(难点)
[自主预习·探新知]
1.分类变量和列联表
(1)分类变量
变量的不同“值”表示个体所属的,像这样的变量称为分类变量.
(2)列联表
①定义:列出的两个分类变量的称为列联表.
②2×2列联表
一般地,假设有两个分类变量X和Y,它们的取值分别为和,其样本频数列联表(称为2×2列联表)为
y1y2总计x1a b a+b
x2c d c+d
总计a+c b+d a+b+c+d
2.等高条形图
(1)等高条形图与表格相比,更能直观地反映出两个分类变量间是否,常用等高条形图展示列联表数据的.
(2)观察等高条形图发现
a
a+b和
c
c+d相差很大,就判断两个分类变量之
间.
3.独立性检验
定义利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验
公式K2=n(ad-bc)2
(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d
具体步骤①确定α,根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定
②计算K2,利用公式计算随机变量K2的
③下结论,如果,就推断“X与Y有关系”,这种推断
不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y 有关系”,或者在样本数据中支持结论“X与Y有关系”
思考:独立性检验的基本思想与反证法的思想有何相似之处?
[基础自测]
1.判断(正确的打“√”,错误的打“×”)
(1)分类变量中的变量与函数中的变量是同一概念.()
(2)独立性检验的方法就是反证法.()
(3)独立性检验中可通过统计表从数据上说明两分类变量的相关性的大小
2.下面是2×2列联表
y1y2总计
x
1
a2173 x272027
总计b41100则表中a,b处的值为()
A.94,96B.52,40
C.52,59 D.59,52
3.调查男女学生购买食品时是否看出厂日期与性别有无关系时,最有说服力的是() A.期望B.方差
C.正态分布D.独立性检验
4.下面的等高条形图可以说明的问题是________(填序号).
图3­2­1
①“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响是绝对不同的;
②“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响没有什么不同;
③此等高条形图看不出两种手术有什么不同的地方;
④“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响在某种程度上是不同的,但是没有100%的把握.
[合作探究·攻重难]
类型1
等高条形图的应用
例1.为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:
组别阳性数阴性数总计铅中毒病人29736
对照组92837
总计383573试画出列联表的等高条形图,分析铅中毒病人和对照组的尿棕色素阳性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?
[规律方法]
1.利用等高条形图判断两个分类变量是否相关的步骤:
(1)统计:收集数据,统计结果.
(2)列表:列出2×2列联表,计算频率、粗略估计.
(3)绘图:绘制等高条形图,直观分析.
2.在等高条形图中,可以估计满足条件X=x1的个体中具有Y=y1的个体所占的比例a
a+b,
也可以估计满足条件X=x2的个体中具有Y=y1的个体所占的比例
c
c+d
.两个比例的值相差越
大,X与Y有关系成立的可能性就越大.
[跟踪训练]1.某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作
出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.
类型2
由K2进行独立性检验
例2.某校高三年级在一次全年级的大型考试中,数学成绩优秀和非优秀的学生中,物理、化学、总分也为优秀的人数如下表所示,则我们能否在犯错误的概率不超过0.001的前提下认为数学成绩优秀与物理、化学优秀有关系?
物理优秀化学优秀总分优秀数学优秀228225267
数学非优秀14315699
注:该年级此次考试中数学成绩优秀的有360人,非优秀的有880人.
[思路探究]首先分别列出数学成绩与物理、化学、总分的2×2列联表,再正确计算
K2的观测值,然后由K2的值作出判断.
[规律方法]
1.利用K2进行独立性检验的步骤
(1)列表:列出2×2列联表.
(2)求值:求出K2的观测值k.
(3)判断:与临界值比较,得出事件有关的可能性大小作出判断.
2.独立性检验的必要性
列联表中的数据是样本数据,它只是总体的代表,它具有随机性,所以只能利用列联表的数据和等高条形图粗略判断两个分类变量是否有关系.而K2给出了不同样本容量的数据的统一评判标准.利用它能精确判断两个分类变量是否有关系的可靠程度.
[跟踪训练]2.为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.能否在犯错误的概率不超过0.1的前提下,认为“学生选报文、理科与对外语的兴趣有关”?
类型3
独立性检验与统计的综合应用
[探究问题]
1.从容量为400人的中年人与容量为100人的老年人中抽出50人去体检某项健康指标,若采取分层抽样方法,应从中抽取老年人为多少人?
2.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得的数据:
总成绩好总成绩不好总计数学成绩好478a490
数学成绩不好39924423总计b c913你能求出a,b,c的值吗?该问题中有几个分类变量?它们的取值分别是什么?
3.在探究2中,你认为文科学生总成绩不好与数学成绩不好有关系吗?
例3.为了比较注射A,B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.
(1)甲、乙是200只家兔中的2只,求甲、乙分在不同组的概率.
(2)下表1和表2分别是注射药物A和B后的试验结果.(疱疹面积单位:mm2)
表1:注射药物A后皮肤疱疹面积的频数分布表
疱疹面积[60,65)[65,70)[70,75)[75,80)
频数30402010
表2:注射药物B后皮肤疱疹面积的频数分布表
疱疹面积[60,65)[65,70)[70,75)[75,80)[80,85]
频数1025203015
完成下面2×2列联表
疱疹面积小于70 mm2疱疹面积不小于70 mm2合计注射药物A a=b=
注射药物B c=d=
合计n=
母题探究:1.(改变问法)典例2中条件不变,改变问法:是否有99%的把握认为注射药物A 后的疱疹面积与注射药物B后的疱疹面积有差异?
2.(改变问法)在典例2(2)中完成如图3­2­2所示的频率分布直方图,并比较注射两种药物后疱疹面积的中位数大小.
图3­2­2
[规律方法]
1.独立性检验在实际中有着广泛的应用,是对实际生活中数据进行分析的一种方法,通过这种分析得出的结论对实际生活或者生产都有一定的指导作用.
2.近几年高考中较少单独考查独立性检验,经常与统计、概率等知识综合,频率分布表、频率分布直方图与独立性检验融合在一起是常见的考查形式,一般需要根据条件列出2×2列联表,计算K2的观测值,从而解决问题.
[跟踪训练]3.某学生对其亲属30人的饮食进行了一次调查,并用如图3­2­3所示的茎叶图表示30人的饮食指数.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主)
图3­2­3
(1)根据以上数据完成下列2×2列联表:
主食蔬菜主食肉类总计50岁以下
50岁以上
总计
(2)能否在犯错误的概率不超过0.01的前提下认为其亲属的饮食习惯与年龄有关?并写出简要分析.
[当堂达标·固双基]
1.与表格相比,能更直观地反映出相关数据总体状况的是()
A.列联表B.散点图
C.残差图D.等高条形图
2.对于分类变量X与Y的随机变量K2的观测值k,下列说法正确的是() A.k越大,“X与Y有关系”的可信程度越小
B.k越小,“X与Y有关系”的可信程度越小
C.k越接近于0,“X与Y没有关系”的可信程度越小
D.k越大,“X与Y没有关系”的可信程度越大
3.为了探究电离辐射的剂量与人体的受损程度是否有关,用两种不同剂量的电离辐射照射小白鼠.在照射后14天内的结果如下表所示:
死亡存活总计第一种剂量141125
第二种剂量61925总计203050进行统计分析时的统计假设是________.
4.下列说法正确的有________(填序号).
①分类变量的取值仅表示个体所属的类别,它们的取值一定是离散的;
②分类变量的取值也可以用数字来表示,但这时的数字除了分类以外没有其他的含义;
③2×2列联表是两个分类变量的频数汇总统计表;
④2×2列联表和等高条形图都能反映出两个分类变量间是否相互影响.
5.在国家未实施西部开发战略前,一新闻单位在应届大学毕业生中随机抽取1 000人问卷,只有80人志愿加入西部建设.而国家公布实施西部开发战略后,随机抽取1 200名应届大学毕业生问卷,有400人志愿加入国家西部建设.
问:能否在犯错误的概率不超过0.001的前提下,认为实施西部开发战略的公布对应届大学毕业生的选择产生了影响?
参考答案
[自主预习·探新知]
1. (1)不同类别(2)①频数表②{x1,x2}和{y1,y2}
2. (1)相互影响频率特征
(2)有关系
3.临界值K a 观测值K K≥K0 犯错误的概率没有发现足够证据
思考:[提示]
反证法假设检验
要证明结论A要确认“两个变量有关系”
在A不成立的前提下进行假设该结论不成立,即假设结论“两个变量没有关系”成立,在该
推理假设下计算K2
推出矛盾,意味着结论A 成立由观测数据计算得到的K2很大,则在一定可信程度上说明假设不合理
没有找到矛盾,不能对A 下任何结论,即反证法不成功根据随机变量K2的含义,可以通过K2的大小来判断“两个变量有关系”这一结论成立有多大把握
[基础自测]
1.【解析】(1)×变量的不同“值”表示个体所属的不同类别,象这样的变量称为分类变量,有时可以把分类变量的不同取值用数字表示,但这时的数字除了分类以外没有其他含义,而函数中的变量分为自变量与因变量,都是数的集合,有它们各自的意义.
(2)×独立性检验的思想类似于反证法,但不能说它就是反证法.
(3)√独立性检验是对两个分类变量有关系的可信度的判断,其结论是有多大的把握确认两个分类变量有关系,可以通过统计表从数据上进行运算,再进行判断.
【答案】(1)×(2)×(3)√
2.【解析】a=73-21=52,b=a+7=52+7=59.
【答案】C
3.【解析】要判断两个事件是否相关时,用独立性检验.
【答案】D
4.【答案】④
例1. [解]等高条形图如图所示:
其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率.
由图可以直观地看出铅中毒病人与对照组相比,尿棕色素为阳性的频率差异明显,因此铅中毒病人与尿棕色素为阳性有关系.
[跟踪训练]1.[解]作列联表如下:
性格内向性格外向总计
考前心情紧张332213545
考前心情不紧张94381475总计426594 1 020在考前心情紧张的群体中,性格内向的约占61%,在考前心情不紧张的群体中,性格内向的约占20%.绘制相应的等高条形图如图所示:
图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例,从图中可以看出考前心情紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例大,可以认为考前紧张与性格类别有关.
例2. [解] (1)根据已知数据列出数学与物理优秀的2×2列联表如下:
物理优秀 物理非优秀
总计 数学优秀 228 b 360 数学非优秀
143 d 880 总计
371
b +d
1 240
∴b =360-228=132,d =880-143=737,b +d =132+737=869. 代入公式可得K 2的观测值为k 1≈270.114.
(2)按照上述方法列出数学与化学优秀的2×2列联表如下:
化学优秀 化学非优秀
总计 数学优秀 225 135 360 数学非优秀 156 724 880 总计
381
859
1 240
代入公式可得K 2的观测值k 2≈240.611.
综上,由于K 2的观测值都大于10.828,因此说明都能在犯错误的概率不超过0.001的前提下认为数学成绩优秀与物理、化学优秀有关系. [跟踪训练]2.[解] 根据题目所给的数据得到如下列联表:
理科 文科 总计 有兴趣 138 73 211 无兴趣 98 52 150 总计
236
125
361
根据列联表中数据由公式计算得随机变量K 2的观测值 k =361×(138×52-73×98)2211×150×236×125≈1.871×10-
4.
因为1.871×10-
4<2.706,
所以在犯错误的概率不超过0.1的前提下,不能认为“学生选报文、理科与对外语的兴趣有
关”. [探究问题] 1.[提示]
50
400+100
×100=10(人).
2.[提示] a =12,b =877,c =36.该问题中有“总成绩”和“数学成绩”两个分类变量;“总成绩”的取值有“总成绩好”与“总成绩不好”两个值,“数学成绩”的取值也有“好”与“不好”两个值. 3.[提示] 由探究2计算随机变量K 2的观测值:
k =
913×478×24-399×12
2
490×423×877×36≈6.233>5.024,
∵P (k ≥5.024)≈0.025,
∴在犯错误的概率不超过0.025的前提下,认为文科学生总成绩不好与数学成绩不好有关系.
例3. [解] (1)甲、乙两只家兔分在不同组的概率为p =C 12C 99198
C 100200=100199
.
(2)2×2列联表如下. 疱疹面积小于70 mm 2
疱疹面积不小于70 mm 2
合计 注射药物A a =70 b =30 100 注射药物B c =35 d =65 100 合计 105
95
n =200
母题探究:1. [解] k =200×(70×65-35×30)2
100×100×105×95
≈24.56.
由于K 2>6.635,所以有99%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”. 2.[解] 如图所示
图Ⅰ 注射药物A 后皮肤疱疹面积的频率分布直方图
图Ⅱ 注射药物B 后皮肤疱疹面积的频率分布直方图
可以看出注射药物A后的疱疹面积的中位数在65至70之间,而注射药物B后的疱疹面积的中位数在70至75之间,所以注射药物A后疱疹面积的中位数小于注射药物B后疱疹面积的中位数.
[跟踪训练]3.[解](1)2×2列联表如下:
主食蔬菜主食肉类总计50岁以下4812
50岁以上16218总计201030
(2)因为k2=30×(8-128)2
12×18×20×10=10>6.635,
P(K2>6.635)=0.01,
所以可以在犯错误的概率不超过0.01的前提下认为其亲属的饮食习惯与年龄有关.
[当堂达标·固双基]
1.【解析】对于A,列联表需要计算K2的值,不是直观的分析;
对于B,散点图体现的是变量间相关性的强弱;
对于C,残差图体现预报变量与实际值之间的差距,
对于D,等高条形图能直观地反映两个分类变量是否有关系.
【答案】D
2.【解析】k越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大,k越小,“X与Y有关系”的可信程度越小.
【答案】B
3.【解析】根据假设性检验的概念知,应“假设电离辐射的剂量与人体受损程度无关”.【答案】假设电离辐射的剂量与人体受损程度无关
4.【解析】由分类变量的定义可知①②正确;由2×2列联表的定义可知③正确;2×2列联表和等高条形图都能展示样本的频率特征,若在一个分类变量所取值的群体中,另一个分类变量所取值的频率相差较小,则说明这两个变量不相互影响,否则就相互影响.故④正确.【答案】①②③④
5.[解]根据题意,列出2×2列联表:
志愿者非志愿者总计开发战略公布前80920 1 000
开发战略公布后400800 1 200
总计480 1 720 2 200由公式计算K2统计量得:
k =2 200×(80×800-920×400)2480×1 720×1 000×1 200
≈205.22.
因为205.22>10.828,因此在犯错误的概率不超过0.001的前提下认为实施西部开发战略的公布对应届大学毕业生的选择产生了影响.。

相关文档
最新文档