高中数学 第1章 统计案例 1.1 独立性检验学案 苏教版选修12
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.1 独立性检验
在从烟台——大连的某次航运中,海上出现恶劣气候,随机调查男、女乘客在船上晕船的情况如下表:
问题1:上述表格在数学中是如何定义的?
提示:此表格为2×2列联表.
问题2:据此资料,你是否认为在恶劣气候中航行,男人比女人更容易晕船?
提示:不能认为.
问题3:判断上述问题应运用什么方法?
提示:独立性检验.
1.2×2列联表的定义
对于两个研究对象Ⅰ和Ⅱ,Ⅰ有两类取值类A和类B,Ⅱ也有两类取值类1和类2,可以得到如下列联表所示的抽样数据:
将形如此表的表格称为2×2列联表.
2.卡方统计量
为了消除样本量对|ad-bc|的影响,统计学中引入下面的量(称为卡方统计量):
χ2=n(ad-bc)2
(a+b)(c+d)(a+c)(b+d)
.①
其中n=a+b+c+d为样本量.
3.独立性检验
利用χ2统计量来研究两类对象是否有关系的方法称为独立性检验.
4.要推断“Ⅰ与Ⅱ有关系”,可按下面的步骤进行
(1)提出假设H0:Ⅰ与Ⅱ没有关系;
(2)根据2×2列联表与公式①计算χ2的值;
(3)查对临界值(如表),作出判断.
例如:
①若χ2>10.828,则有99.9%的把握认为“Ⅰ与Ⅱ有关系”;
②若χ2>6.635,则有99%的把握认为“Ⅰ与Ⅱ有关系”;
③若χ2>2.706,则有90%的把握认为“Ⅰ与Ⅱ有关系”;
④若χ2≤2.706,则认为没有充分的证据显示“Ⅰ与Ⅱ有关系”,但也不能作出结论“H0成立”,即不能认为Ⅰ与Ⅱ没有关系.
1.在列联表中,如果两个变量没有关系,则应满足ad-bc≈0.因此|ad-bc|越小,说明两个变量之间关系越弱;|ad-bc|越大,说明两个变量之间关系越强.2.独立性检验的基本思想类似于反证法,我们可以利用独立性检验来考察两个对象是否有关,并且能较精确地给出这种判断的把握程度.
[例1] 在一项有关性别与喜欢吃甜食的关系的社会调查中,发现调查的男性为530人,女性为670人,其中男性中喜欢吃甜食的为117人,女性中喜欢吃甜食的为492人,请作出性别与喜欢吃甜食的列联表.
[思路点拨] 在2×2列联表中,共有两类变量,每一类变量都有两个不同的取值,然后找出相应的数据,列表即可.
[精解详析] 作列联表如下:
[一点通] (1)分清类别是作列联表的关键;
(2)表中排成两行两列的数据是调查得来的结果;
(3)选取数据时,要求表中的四个数据a,b,c,d都要不小于5,以保证检验结果的可信度.
1.下面是一个2×2列联表:
则表中a=________,b=________.
解析:∵a+21=73,∴a=73-21=52.
又∵a+8=b,∴b=52+8=60.
答案:52 60
2.某学校对高三学生作一项调查后发现:在平时的模拟考试中,性格内向的426名学生中有332名在考前心情紧张;性格外向的594名学生中在考前心情紧张的有213人,作出2×2列联表.
解:作列联表如下:
[例2] 某矿石粉厂当生产一种矿石粉时,在数天内即有部分工人患职业性皮肤炎,在生产季节开始,随机抽取75名车间工人穿上新防护服,其余仍穿原用的防护服,生产进行一个月后,检查两组工人的皮肤炎患病人数如下:
问这种新防护服对预防工人患职业性皮肤炎是否有效?并说明你的理由. [思路点拨] 通过有关数据的计算,作出相应的判断.
[精解详析] 提出假设H 0:新防护服对预防皮肤炎没有明显效果. 根据列联表中的数据可求得
χ2
=103×(5×18-70×10)
2
75×28×15×88
≈13.826.
因为H 0成立时,χ2≥10.828的概率约为0.001,而这里χ2
≈13.826>10.828,所以我们有99.9%的把握说新防护服比旧防护服对预防工人患职业性皮肤炎有效.
[一点通] 根据2×2列联表,利用公式
n (ad -bc )2(a +b )(c +d )(a +c )(b +d )
计算χ2
的值,再与临界值比较,作出判断.
3.有300人按性别和是否色弱分类如下表:
色弱与性别是否有关?
解:提出假设H0:色弱与性别无关.
通过计算χ2知,
χ2=n(ad-bc)2
(a+b)(c+d)(a+c)(b+d)
=
300×(132×5-151×12)2
(132+151)×(12+5)×(132+12)×(151+5)
≈3.683 9.
因为H0成立时,χ2>2.706的概率约为0.10,
而这里χ2≈3.683 9>2.706,故有90%的把握说色弱与性别有关.
4.有甲、乙两个班级进行一门课的考试,按照学生的考试成绩优秀和不优秀统计后,得到如下列联表:
利用列联表的独立性检验估计成绩与班级是否有关系.
解:提出假设H0:成绩与班级没有关系.由列联表中所给数据,可得χ2=
90×(10×38-7×35)2
17×73×45×45
≈0.653<0.708.
因为当H0成立时,χ2≥0.653的概率大于40%,这概率比较大,所以根据目前的调查数据,不能否定假设H0,即不能作出成绩与班级有关的结论.
[例3] 为了调查某生产线上质量监督员甲是否在生产现场对产品质量好坏有无影响,现统计数据如下:甲在生产现场时,990件产品中有合格品982件,次品8件;甲不
在生产现场时,510件产品中有合格品493件,次品17件.试用独立性检验的方法分析监督员甲是否在生产现场对产品质量好坏有无影响.
[思路点拨] 正确地写出两个分类变量的四个取值,画出2×2 列联表是解决问题的关键,利用χ2
公式,计算χ2
的值,进而与临界值比较大小,作出结论.
[精解详析] 2×2列联表如下
提出假设
H 0:质量监督员甲是否在生产现场与产品质量的好坏无明显关系.
根据χ2
公式得
χ2
=1 500(982×17-493×8)2
990×510×1 475×25
≈13.097.
因为H 0成立时,χ2>10.828的概率约为0.001,而这里χ2
≈13.097>10.828,所以有99.9%的把握认为质量监督员甲是否在生产现场与产品质量的好坏有关系.
[一点通] (1)通过分析题可以画出列联表,然后求得χ2
值.
(2)进行独立性检验时和反证法的思想一样,都是先假设与预定的结论相反,然后推出矛盾,在实际做题中成了程序化的步骤,只需求出χ2
值,与临界值相比较即可.
5.为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:
(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;
(2)有多大的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关? (3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由.
附:
χ2
=(-)(a +b )(c +d )(a +c )(b +d )
.
解:(1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要志愿者提供帮助的老年人的比例的估计值为70
500
=14%.
(2)提出假设H 0:该地区的老年人是否需要志愿者帮助与性别无关,由列联表中所给数据,可得
χ2
=500×(40×270-30×160)2
200×300×70×430
≈9.967.
因为H 0成立时,χ2
≈9.967>6.635,所以有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关.
(3)由(2)的结论知,该地区老年人是否需要志愿者提供帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层,并采用分层抽样方法,比采用简单随机抽样方法更好.
6.电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:
将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.
根据已知条件完成下面的2×2列联表,并据此资料你是否有95%的把握认为“体育迷”与性别有关?
解:由频率分布直方图可知,在抽取的100人中,“体育迷”有25人,从而2×2列联表如下:
将2×2列联表中的数据代入公式计算,
得χ2
=100×(30×10-45×15)2
75×25×45×55=10033
≈3.030.
因为3.030<3.841,所以没有95%的把握认为“体育迷”与性别有关.
1.独立性检验与反证法的区别和联系 (1)联系
可以用反证法的思想解释独立性检验原理,它们的对应关系为:
(2)区别
一是独立性检验中用有利于
H 0的小概率事件的发生代替了反证法思想中的矛盾;二是独立性检验中接受原假设的结论相当于反证法中没有找到矛盾.
2.利用2×2列联表进行独立性检验的一般步骤 列表→计算χ
2
→χ2
的值与临界值对照→结论
一、填空题
1.在一项打鼾与患心脏病的调查中,共调查了1 671人,经过计算χ2
=27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________的.(有关、无关)
解析:∵χ2
=27.63,∴χ2
>10.828 ∴有理由认为打鼾与患心脏病是有关的. 答案:有关
2.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的序号是________. ①若χ2
的观测值为6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;
②从独立性检验可知,有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能性患有肺病;
③若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误;
④以上三种说法均不正确.
解析:若有95%的把握认为两个变量有关系,则说明判断出错的可能性是5%. 答案:③
3.为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如下2×2列联表:
已知P (χ2
≥3.841)≈0.05,P (χ2
≥5.024)≈0.025, 根据表中数据得到χ2
=50×(13×20-10×7)
2
23×27×20×30
≈4.844.
则有________的把握认为选修文科与性别有关. 答案:95%
4.考察棉花种子是否经过处理跟得病之间的关系,得如下表所示的数据:
根据以上数据得χ2
的值是________.
解析:由χ2
=n (
ad -bc )2(a +b )(c +d )(a +c )(b +d )
,得χ2
=0.164.
答案:0.164
5.为大力提倡“厉行节约,反对浪费”,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:
附:
χ2
=n (ad -bc )2
(a +b )(c +d )(a +c )(b +d )
参照附表,得到的正确结论的序号是________.
①在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”;
②在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”;
③有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”; ④有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”. 解析:χ2
=100×(45×15-30×10)2
55×45×75×25
≈3.03>2.706,
∴有90%以上把握认为“该市居民能否做到‘光盘’与性别有关”,即犯错不超过10%. 答案:③ 二、解答题
6.为研究学生的数学成绩与对学习数学的兴趣是否有关,对某年级学生作调查,得到如下数据:
学生的数学成绩好坏与对学习数学的兴趣是否有关?
解:提出假设H 0:学生数学成绩的好坏与对学习数学的兴趣无关. 由公式得χ2
的值
χ2
=189×(64×73-22×30)2
86×103×95×94
≈38.459.
∵当H 0成立时,χ2
≥10.828的概率约为0.001, 而这里χ2
≈38.459>10.828,
∴有99.9%的把握认为学生数学成绩的好坏与对学习数学的兴趣是有关的. 7.有两个变量x ,y ,其一组观测值如下面的2×2列联表所示:
其中a ,15-a 均为大于5的整数,则a 取何值时,有90%的把握认为x 与y 之间有关系?
解:查表可知,要使x 与y 之间有90%的把握认为有关系,则χ2
>2.706, 由题意,得χ2
=65[a (30+a )-(20-a )(15-a )]
2
20×45×15×50
=
65(65a -300)220×45×15×50=13(13a -60)
2
60×90,
由χ2
>2.706,解得a >7.19或a <2.04. 又a >5,且15-a >5,a ∈Z ,∴a =8,9.
当a 等于8或9时,有90%的把握认为x 与y 之间有关系.
8.某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,得到如图所示的频率分布直方图.
规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成2×2列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?
解:由已知得样本中有25周岁以上组工人100×300
500=60人,25周岁以下组工人,100
×200
500
=40人.由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手有60×(0.005 0+0.020 0)×10=15(人),“25周岁以下组”中的生产能手有
40×(0.032 5+0.005 0)×10=15(人),据此可得2×2列联表如下:
所以得χ2=n(ad-bc)2
(a+b)(c+d)(a+c)(b+d)
=100×(15×25-15×45)2 60×40×30×70
=25
14
≈1.786.
因为1.786<2.706,
所以没有90%的把握认为“生产能手与工人所在的年龄组有关”.。