推荐学习K122018-2019学年高中数学人教A版选修1-2教学案:第一章1.2独立性检验的基本思
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
独立性检验的基本思想及其初步应用
预习课本P10~15,思考并完成以下问题
1.分类变量与列联表分别是如何定义的?
2.独立性检验的基本思想是怎样的?
3.独立性检验的常用方法有哪些?
[新知初探]
1.与列联表相关的概念
(1)分类变量:变量的不同“值”表示个体所属的不同类型,像这样的变量称为分类变量.
(2)列联表:
①列出的两个分类变量的频数表,称为列联表.
②一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:
在2×2列联表中,如果两个分类变量没有关系,则应满足ad-bc≈0, 因此|ad-bc|越小,关系越弱;|ad-bc|越大,关系越强.
2.等高条形图
等高条形图与表格相比,图形更能直观地反映出两个分类变量间是否相互影响,常用
等高条形图展示列表数据的频率特征.
3.独立性检验的基本思想
(1)定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
(2)公式:K2=
n(ad-bc)2
(a+b)(c+d)(a+c)(b+d)
,其中n=a+b+c+d为样本容量.
[小试身手]
1.判断下列命题是否正确.(正确的打“√”,错误的打“×”)
(1)分类变量中的变量与函数中的变量是同一概念.()
(2)列联表频率分析法、等高条形图可初步分析两分类变量是否有关系,而独立性检验中K2取值则可通过统计表从数据上说明两分类变量的相关性的大小.()
(3)独立性检验的方法就是反证法.()
答案:(1)×(2)√(3)×
2.与表格相比,能更直观地反映出相关数据总体状况的是()
A.列联表B.散点图
C.残差图D.等高条形图
答案:D
3.如果有99%的把握认为“X与Y有关系”,那么具体算出的数据满足()
附表:
A.k>6.635 B.k>5.024
C.k>7.879 D.k>3.841
答案:A
4.下面是一个2×2列联表:
则表中a,b的值分别为________.
答案:52, 54
[典例]
液作尿棕色素定性检查,结果如下:
铅中毒病人与尿棕色素为阳性是否有关系?
[解]等高条形图如图所示:
其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率.
由图可以直观地看出铅中毒病人与对照组相比,尿棕色素为阳性的频率差异明显,因此铅中毒病人与尿棕色素为阳性有关系.
,在等高条形图中,可以估计满足条件X=x1的个体中具有Y=y1的个体所占的比例a
a+b 也可以估计满足条件X=x2的个体中具有Y=y1的个体所占的比例c
.两个比例的值相差
c+d
越大,X与Y有关系成立的可能性就越大.
[活学活用]
某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.
解:作列联表如下:
相应的等高条形图如图所示:
图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例,从图中可以看出考前紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前紧张与性格类型有关.
[典例] 361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.能否在犯错误的概率不超过0.1的前提下,认为“学生选报文、理科与对外语的兴趣有关”?
[解] 根据题目所给的数据得到如下列联表:
根据列联表中数据由公式计算得随机变量K 2的观测值 k =361×(138×52-73×98)2211×150×236×125≈1.871×10-4.
因为1.871×10-4<2.706,
所以在犯错误的概率不超过0.1的前提下,不能认为“学生选报文、理科与对外语的兴趣有关”.
独立性检验的步骤
(1)确定分类变量,获取样本频数,得到列联表.
(2)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.
(3)利用公式K2=n(ad-bc)2
(a+b)(c+d)(a+c)(b+d)
计算随机变量K2的观测值k0.
(4)作出判断.
如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y的关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.
[活学活用]
在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人.女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.
(1)根据以上数据建立一个2×2的列联表;并估计,以运动为主的休闲方式的人的比例;
(2)能否在犯错误的概率不超过0.025的前提下,认为性别与休闲方式有关系?
附表:
K2=n() ad-bc2
()
a+b()
c+d()
a+c()
b+d
.解:(1)由所给的数据得到列联表
所以以运动为主要的休闲方式的人的比例为15∶31. (2)根据列联表中的数据计算得随机变量K 2的观测值, k =124×(43×33-27×21)270×54×64×60≈6.201,
因为k >5.024,
所以在犯错误的概率不超过0.025的前提下认为休闲方式与性别有关.
[典例] 某中学将100名高一新生分成水平相同的甲、乙两个“平行班”,每班50人.陈老师采用A ,B 两种不同的教学方式分别在甲、乙两个班级进行教改实验.为了解教学效果,期末考试后,陈老师分别从两个班级中各随机抽取20名学生的成绩进行统计,作出茎叶图如图.记成绩不低于90分者为“成绩优秀”.
(1)在乙班样本的20个个体中,从不低于86分的成绩中随机抽取2个,求抽出的两个均“成绩优秀”的概率;
(2)由以上统计数据作出列联表,并判断能否在犯错误的概率不超过0.1的前提下认为:“成绩优秀”与教学方式有关.
[解] (1)由题意知本题是一个等可能事件的概率,试验发生包含的事件是从不低于86分的成绩中随机抽取两个包含的基本事件是:(86,93), (86,96), (86,97), (86,99), (86,99), (93,96),(93,97), (93,99), (93,99), (96,97), (96,99), (96,99),(97,99),(97,99),(99,99),共有15种结果,
符合条件的事件数(93,96),(93,97),(93,99),(93,99),(96,97),(96,99),(96,99),(97,99),
(97,99),(99,99),共有10种结果,
根据等可能事件的概率得到P =1015=2
3.
(2)由已知数据得
根据列联表中的数据,计算得随机变量K 2的观测值 k =40×(1×15-5×19)26×34×20×20
≈3.137,
由于3.137>2.706,所以在犯错误的概率不超过0.1的前提下认为:“成绩优秀”与教学方式有关.
(1)独立性检验问题是常与统计、概率相结合,解题时一定要认真审题,找出各数据的联系.
(2)解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.
[活学活用]
某市教育局邀请教育专家深入该市多所中小学,开展听课、访谈及随堂检测等活动,他们把收集到的180节课分为三类课堂教学模式,教师主讲的为A 模式,少数学生参与的为B 模式,多数学生参与的为C 模式,A ,B ,C 三类课的节数比例为3∶2∶1.
(1)为便于研究分析,教育专家将A 模式称为传统课堂模式,B ,C 统称为新课堂模式,根据随堂检测结果,把课堂教学效率分为高效和非高效,根据检测结果统计得到如下2×2列联表(单位:节)
请根据统计数据回答:有没有99%的把握认为课堂教学效率与教学模式有关?并说明
理由.
(2)教育专家采用分层抽样的方法从收集到的180节课中选出12节课作为样本进行研究,并从样本中的B 模式和C 模式课堂中随机抽取2节课,求至少有一节课为C 模式课堂的概率.
参考临界值有:
参考公式:K 2
=n (ad -bc )2
(a +b )(c +d )(a +c )(b +d )
,
其中n =a +b +c +d .
解:(1)由列联表中的统计数据计算随机变量K 2的观测值为: ∵k =180×(60×50-40×30)2
100×80×90×90=9>6.635,
由临界值表P (K 2≥6.635)≈0.010,
∴有99%的把握认为课堂效率与教学模式有关.
(2)样本中的B 模式课堂和C 模式课堂分别是4节和2节.
从中任取两节有C 26=15种取法,其中至少有一节课为C 模式课堂取法有C 26-C 2
4=9种,
∴至少有一节课为C 模式课堂的概率为915=35
.
层级一 学业水平达标
1.以下关于独立性检验的说法中, 错误的是( ) A .独立性检验依赖于小概率原理 B .独立性检验得到的结论一定准确
C .样本不同,独立性检验的结论可能有差异
D .独立性检验不是判断两事物是否相关的唯一方法
解析:选B 根据独立性检验的原理可知得到的结论是错误的情况是小概率事件,但并不一定是准确的.
2.观察下列各图,其中两个分类变量之间关系最强的是( )
解析:选D 在四幅图中,D 图中两个阴影条的高相差最明显,说明两个分类变量之间关系最强,故选D .
3.在列联表中,下列哪两个比值相差越大,两个分类变量有关系的可能性就越大( ) A .a a +b 与d c +d B .c a +b 与a c +d
C .a a +b 与c c +d
D .a a +b 与c b +c
解析:选C 由等高条形图可知a a +b 与c c +d 的值相差越大,|ad -bc |就越大,相关性就
越强.
4.对于分类变量X 与Y 的随机变量K 2的观测值k ,下列说法正确的是( ) A .k 越大,“X 与Y 有关系”的可信程度越小 B .k 越小,“X 与Y 有关系”的可信程度越小 C .k 越接近于0,“X 与Y 没有关系”的可信程度越小 D .k 越大,“X 与Y 没有关系”的可信程度越大
解析:选B K 2的观测值k 越大,“X 与Y 有关系”的可信程度越大.因此,A 、C 、D 都不正确.
5.考察棉花种子经过处理跟生病之间的关系得到下表数据:
A .种子是否经过处理跟是否生病有关
B .种子是否经过处理跟是否生病无关
C .种子是否经过处理决定是否生病
D .以上都是错误的
解析:选B 由K 2=407×(32×213-61×101)
2
93×314×133×274
≈0.164<2.706,即没有把握认为是
否经过处理跟是否生病有关.
6.在一项打鼾与患心脏病的调查中,共调查了1 671人,经过计算K 2的观测值k =27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________的.(填“有关”或“无关”)
解析:∵K 2的观测值k =27.63,∴k >10.828,∴在犯错误的概率不超过0.001的前提下认为打鼾与患心脏病是有关的.
答案:有关
7.如果根据性别与是否爱好运动的列联表得到K 2≈3.852>3.841,则判断性别与是否爱好运动有关,那么这种判断犯错的可能性不超过________.
解析:∵P (K 2≥3.841)≈0.05.
∴判断性别与是否爱好运动有关,出错的可能性不超过5%. 答案:5%
8.统计推断,当________时,在犯错误的概率不超过0.05的前提下认为事件A 与B 有关;当________时,认为没有充分的证据显示事件A 与B 是有关的.
解析:当k >3.841时,就有在犯错误的概率不超过0.05的前提下认为事件A 与B 有关,当k ≤2.706时认为没有充分的证据显示事件A 与B 是有关的.
答案:k >3.841 k ≤2.706
9.为了调查胃病是否与生活规律有关,在某地对540名40岁以上的人进行了调查,结果是:患胃病者生活不规律的共60人,患胃病者生活规律的共20人,未患胃病者生活不规律的共260人,未患胃病者生活规律的共200人.
(1)根据以上数据列出2×2列联表;
(2)在犯错误的概率不超过0.01的前提下认为40岁以上的人患胃病与否和生活规律有关系吗?为什么?
解:(1)由已知可列2×2列联表:
(2)根据列联表中的数据,由计算公式得K k =540×(20×260-200×60)2220×320×80×460≈9.638.
∵9.638>6.635,
因此,在犯错误的概率不超过0.01的前提下认为40岁以上的人患胃病与否和生活规律有关.
10.为了解某班学生喜爱打篮球是否与性别有关,对本班50人进行了问卷调查得到了如下的列联表:
已知在全部50人中随机抽取1人抽到爱打篮球的学生的概率为3
5.
(1)请将上面的列联表补充完整;
(2)是否有99.5%的把握认为喜爱打篮球与性别有关;请说明理由. 附参考公式:K 2
=n (ad -bc )2
(a +b )(c +d )(a +c )(b +d )
,其中n =a +b +c +d .
解:(1)列联表补充如下:
(2)∵K 2
=50×(20×15-10×5)2
30×20×25×25
≈8.333>7.879,
∴有99.5%的把握认为喜爱打篮球与性别有关.
层级二 应试能力达标
1.在第29届北京奥运会上,中国健儿取得了51金、21银、28铜的好成绩,稳居金牌榜榜首,由此许多人认为中国进入了世界体育强国之列,也有许多人持反对意见,有网友为此进行了调查,在参加调查的2 548名男性中有1 560名持反对意见,2 452名女性中
有1 200名持反对意见,在运用这些数据说明性别对判断“中国进入了世界体育强国之列”是否有关系时,用什么方法最有说服力()
A.平均数与方差B.回归直线方程
C.独立性检验D.概率
解析:选C由于参加调查的人按性别被分成了两组,而且每一组又被分成了两种情况,判断有关与无关,符合2×2列联表的要求,故用独立性检验最有说服力.2.对于独立性检验,下列说法正确的是()
A.K2>3.841时,有95%的把握说事件A与B无关
B.K2>6.635时,有99%的把握说事件A与B有关
C.K2≤3.841时,有95%的把握说事件A与B有关
D.K2>6.635时,有99%的把握说事件A与B无关
解析:选B由独立性检验的知识知:K2>3.841时,有95%的把握认为“变量X与Y有关系”;K2>6.635时,有99%的把握认为“变量X与Y有关系”.故选项B正确.3.想要检验是否喜欢参加体育活动是不是与性别有关,应该检验()
A.H0:男性喜欢参加体育活动
B.H0:女性不喜欢参加体育活动
C.H0:喜欢参加体育活动与性别有关
D.H0:喜欢参加体育活动与性别无关
解析:选D独立性检验假设有反证法的意味,应假设两类变量(而非变量的属性)无关,这时的K2应该很小,如果K2很大,则可以否定假设,如果K2很小,则不能够肯定或者否定假设.
4.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”,得到如下的列联表:
由此表得到的正确结论是()
A.在犯错误的概率不超过0.01的前提下,认为“该市居民能否做到‘光盘’与性别有关”
B.在犯错误的概率不超过0.01的前提下,认为“该市居民能否做到‘光盘’与性别
无关”
C .在犯错误的概率不超过0.1的前提下,认为“该市居民能否做到‘光盘’与性别有关”
D .在犯错误的概率不超过0.1的前提下,认为“该市居民能否做到‘光盘’与性别无关”
解析:选C 由2×2列联表得到a =45,b =10,c =30,d =15.
则a +b =55,c +d =45,a +c =75,b +d =25,ad =675,bc =300,n =100.
代入K 2=n (ad -bc )2
(a +b )(c +d )(a +c )(b +d )
,得K 2的观测值k =100×(675-300)
2
55×45×75×25≈3.030.因
为2.706<3.030<3.841.
所以在犯错误的概率不超过0.1的前提下认为“该市居民能否做到‘光盘’与性别有关”.
5.若两个分类变量X 与Y 的列联表为:
则“X 与Y 之间有关系”这个结论出错的可能性为________. 解析:由题意可得K 2的观测值
k =(10+15+40+16)×(10×16-40×15)2
(10+15)×(40+16)×(10+40)×(15+16)
≈7.227,
∵P (K 2≥6.635)≈1%, 所以“x 与y 之间有关系”出错的可能性为1%. 答案:1%
6.对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:
有差别的结论________(填“能”或“不能”).
解析:根据列联表中的数据,可以求得K 2的观测值k =392×(39×167-29×157)2
68×324×196×196
≈1.779.
K 2<2.072的概率为0.85.作出这两种手术对病人又发作心脏病的影响有差别的结论. 答案:1.779 不能
7.甲、乙两机床加工同一种零件,抽检得到它们加工后的零件尺寸x (单位:cm)及个数y ,如下表:
由表中数据得y 关于x 的线性回归方程为y =-91+100x (1.01≤x ≤1.05),其中合格零件尺寸为1.03±0.01(cm).完成下面列联表,并判断是否有99%的把握认为加工零件的质量与甲、乙有关?
解:x =1.03,y =a +495,由
y ^
=-91+100x 知,a +495=-91+100×1.03,所以a =
11,由于合格零件尺寸为1.03±0.01 cm ,故甲、乙加工的合格与不合格零件的数据表为:
所以K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d )
=60×(24×18-6×12)230×30×36×24
=10,
因K 2=10>6.635,故有99%的把握认为加工零件的质量与甲、乙有关.
8.某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:
(1)习惯方面有差异”;
(2)已知在被调查的北方学生中有5名数学系的学生,其中2名喜欢甜品.现在从这5名学生中随机抽取3人,求至多有1人喜欢甜品的概率.
解:(1)将2×2列联表中的数据代入公式计算,得
K 2=100×(60×10-20×10)2
70×30×80×20
=10021≈4.762.
由于4.762>3.841,所以有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.
(2)从5名数学系学生中任取3人的一切可能结果所组成的基本事件空间Ω={(a 1,a 2,b 1),(a 1,a 2,b 2),(a 1,a 2,b 3),(a 1,b 1,b 2),(a 1,b 1,b 3),(a 1,b 2,b 3),(a 2,b 1,b 2),(a 2,b 1,b 3),(a 2,b 2,b 3),(b 1,b 2,b 3)}.
(其中a i 表示喜欢甜品的学生,i =1,2.b j 表示不喜欢甜品的学生,j =1,2,3)Ω由10个基本事件组成,且这些基本事件的出现是等可能的.
用A 表示“3人中至多有1人喜欢甜品”这一事件,则
A ={(a 1,b 1,b 2),(a 1,b 1,b 3),(a 1,b 2,b 3),(a 2,b 1,b 2),(a 2,b 1,b 3),(a 2,b 2,b 3),(b 1,b 2,b 3)}.
事件A 是由7个基本事件组成,因而P (A )=7
10
.
(时间120分钟 满分150分)
一、选择题(本大题共12小题,每小题5分,共60分.在每小题给出的四个选项中,只有一项是符合题目要求的)
1.对有线性相关关系的两个变量建立的回归直线方程y ^=a ^+b ^x 中,回归系数b ^
( ) A .可以小于0 B .大于0 C .能等于0
D .只能小于0
解析:选A ∵b ^=0时,则r =0,这时不具有线性相关关系,但b ^
可以大于0也可以小于0.
2.每一吨铸铁成本y (元)与铸件废品率x %建立的回归方程y ^
=56+8x ,下列说法正确的是( )
A .废品率每增加1%,成本每吨增加64元
B .废品率每增加1%,成本每吨增加8%
C .废品率每增加1%,成本每吨增加8元
D .如果废品率增加1%,则每吨成本为56元
解析:选C 根据回归方程知y 是关于x 的单调增函数,并且由系数知x 每增加一个单位,y 平均增加8个单位.
3.下表显示出样本中变量y 随变量x 变化的一组数据,由此判断它最可能是( )
A .线性函数模型
B .二次函数模型
C .指数函数模型
D .对数函数模型
解析:选A 画出散点图(图略)可以得到这些样本点在某一条直线上或该直线附近,故最可能是线性函数模型.
4.试验测得四组(x ,y )的值为(1,2),(2,3),(3,4),(4,5),则y 与x 之间的回归直线方程为( )
A .y ^=x +1
B . y ^
=x +2 C .y ^=2x +1 D .y ^
=x -1
解析:选A 由题意发现,(x ,y )的四组值均满足y ^=x +1,故y ^
=x +1为回归直线方程. 5.下列关于等高条形图说法正确的是( ) A .等高条形图表示高度相对的条形图 B .等高条形图表示的是分类变量的频数
C .等高条形图表示的是分类变量的百分比
D .等高条形图表示的是分类变量的实际高度 解析:选C 由等高条形图的特点及性质进行判断.
6.根据一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的散点图分析存在线性相关关系,求得其回归方程y ^
=0.85x -85.7,则在样本点(165,57)处的残差为( )
A .54.55
B .2.45
C .3.45
D .111.55
解析:选B 把x =165代入y ^
=0.85x -85.7,得y =0.85×165-85.7=54.55,由57-54.55=2.45,故选B .
7.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:
已知在全部105人中随机抽取1人,成绩优秀的概率为2
7,则下列说法正确的是( )
A .列联表中c 的值为30,b 的值为35
B .列联表中c 的值为15,b 的值为50
C .根据列联表中的数据,若按95%的可靠性要求,能认为“成绩与班级有关系”
D .根据列联表中的数据,若按95%的可靠性要求,不能认为“成绩与班级有关系” 解析:选C 由题意知,成绩优秀的学生数是30,成绩非优秀的学生数是75,所以c
=20,b =45,选项A 、B 错误.根据列联表中的数据,得到K 2=
105×(10×30-20×45)
2
55×50×30×75
≈6.109>3.841,因此有95%的把握认为“成绩与班级有关系”,选项C 正确.
8.某考察团对全国10大城市进行职工人均工资水平x (千元)与居民人均消费水平y (千元)统计调查,y 与x 具有相关关系,回归方程为y ^
=0.66x +1.562,若某城市居民人均消费水平为7.675千元,估计该城市人均消费额占人均工资收入的百分比约为( )
A .83%
B .72%
C .67%
D .66%
解析:选A 将y =7.675代入回归方程,可计算得x ≈9.262,所以该城市人均消费
额占人均工资收入的百分比约为7.675÷9.262≈0.83≈83%,即约为83%.
9.为了研究男子的年龄与吸烟的关系,抽查了100个男子,按年龄超过和不超过40岁,吸烟量每天多于和不多于20支进行分组,如下表:
则在犯错误的概率不超过__________的前提下认为吸烟量与年龄有关( ) A .0.001 B .0.01 C .0.05
D .没有理由
解析:选A K 2=100×(50×25-10×15)
2
65×35×60×40
≈22.16>10.828,
所以我们在犯错误的概率不超过0.001的前提下认为吸烟量与年龄有关.
10.为了考察两个变量x 和y 之间的线性相关性,甲、乙两个同学各自独立做了10次和15次试验,并且利用线性回归方法,求得回归直线为l 1和l 2,已知在两人的试验中发现对变量x 的观测数据的平均值恰好相等,都为s ,对变量y 的观测数据的平均值也恰好相等,都为t ,那么下列说法正确的是( )
A .直线l 1和直线l 2有交点(s ,t )
B .直线l 1和直线l 2相交,但交点未必是点(s ,t )
C .直线l 1和直线l 2由于斜率相等,所以必定平行
D .直线l 1和直线l 2必定重合
解析:选A l 1与l 2都过样本中心(x ,y ).
11.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其2×2列联表如下:
对于以下数据,对同一样本能说明X 与Y 有关的可能性最大的一组为( ) A .a =9,b =8,c =7,d =6 B .a =9,b =7,c =6,d =8 C .a =8,b =6,c =9,d =7 D .a =6,b =7,c =8,d =9
解析:选B 对于同一样本|ad -bc |越小,说明X 与Y 之间的关系越弱,|ad -bc |越大, 故检验知选B .
12.两个分类变量X 和Y, 值域分别为{x 1,x 2}和{y 1,y 2}, 其样本频数分别是a =10, b =21, c +d =35. 若X 与Y 有关系的可信程度不小于97.5%, 则c 等于( )
A .3
B .4
C .5
D .6
解析:选A 列2×2列联表如下:
故K 2的观测值k =66×[10(35-c )-21c ]31×35×(10+c )(56-c )≥5.024. 把选项A, B, C, D 代入验证可知
选A .
二、填空题(本大题共4小题,每小题5分,共20分.请把正确答案填在题中的横线上) 13.已知某车间加工零件的个数x 与所花费时间y (h)之间的线性回归方程为y ^
=0.01x +0.5,则加工600个零件大约需要________h .
解析:当x =600时,y ^
=0.01×600+0.5=6.5. 答案:6.5
14.若一组观测值(x 1,y 1),(x 2,y 2),…,(x n ,y n )之间满足y i =bx i +a +e i (i =1,2,…,n ),若e i 恒为0,则R 2为________.
解析:e i 恒为0,说明随机误差总为0,于是y i =y ^
,故R 2=1. 答案:1
15.下列是关于出生男婴与女婴调查的列联表
那么A =______,B =______,C ______,D =________,E =________. 解析:∵45+E =98,∴E =53,
∵E +35=C ,∴C =88,∵98+D =180,∴D =82, ∵A +35=D ,∴A =47,∵45+A =B ,∴B =92. 答案:47 92 88 82 53
16.已知x ,y 之间的一组数据如表,对于表中数据,甲、乙两同学给出的拟合直线分别为l 1:y =13x +1与l 2:y =12x +1
2
,利用最小二乘法判断拟合程度更好的直线是________.
解析:用y =1
3x +1作为拟合直线时,所得y 的实际值与y 的估计值的差的平方和为:
S 1=⎝⎛⎭⎫1-432+(2-2)2+(3-3)2+⎝⎛⎭⎫4-1032+⎝⎛⎭⎫5-1132=73.用y =12x +1
2作为拟合直线时,所得y 的实际值与y 的估计值的差的平方和为:S 2=(1-1)2+(2-2)2+⎝⎛⎭
⎫3-7
22+(4-4)2+⎝⎛⎭⎫5-922=12
.
因为S 2<S 1,故用直线l 2:y =12x +1
2,拟合程度更好.
答案:y =12x +1
2
三、解答题(本大题共6小题,共70分,解答时写出必要的文字说明、证明过程或演算步骤)
17.(本小题满分10分)对某校小学生进行心理障碍测试得如下列联表:(其中焦虑、说谎、懒惰都是心理障碍)
试说明在这三种心理障碍中哪一种与性别关系最大?
解:对于上述三种心理障碍分别构造三个随机变量K 21,K 22,K 2
3,由表中数据可得 K 2
1=110×(5×60-25×20)2
30×80×25×85≈0.863,
K 2
2=110×(10×70-20×10)2
30×80×20×90≈6.366,
K 2
3=110×(15×30-15×50)2
30×80×65×45
≈1.410.
因为K 22的值最大,所以说谎与性别关系最大.
18.(本小题满分12分)有人统计一个省的6个城市某一年的人均国内生产总值(人均GDP)x 和这一年各城市患白血病的儿童数量y ,其数据如下表所示:
(1)画出散点图,并判断是否线性相关; (2)求y 与x 之间的回归方程. 解:(1)作散点图(如下图所示).
由散点图可知y 与x 具有线性相关关系.
(2)将数据代入公式,可得b ^≈23.253,a ^
≈102.151. 故y 与x 之间的线性回归方程是y ^
=23.253x +102.151.
19.(本小题满分12分)某校在两个班进行教学方式对比试验,两个月后进行了一次检测,试验班与对照班成绩统计如下表所示(单位:人):
(1)求m ,n ;
(2)能否在犯错误的概率不超过0.005的情况下认为教学方式与成绩有关系? 解:(1)m =45-15=30,n =50+50=100. (2)由表中的数据,得K 2的观测值为 k =100×(35×30-15×20)250×50×55×45
≈9.091.
因为9.091>7.879,所以能在犯错误的概率不超过0.005的前提下认为教学方式与成绩有关系.
20.(本小题满分12分)某工厂用甲、乙两种不同工艺生产一大批同一种零件,零件尺寸均在[21.7,22.3](单位:cm)之间,把零件尺寸在[21.9,22.1)的记为一等品,尺寸在[21.8,21.9)∪[22.1,22.2)的记为二等品,尺寸在[21.7,21.8)∪[22.2,22.3]的记为三等品,现从甲、乙工艺生产的零件中各随机抽取100件产品,所得零件尺寸的频率分布直方图如图所示:
(1)根据上述数据完成下列2×2列联表,根据此数据你认为选择不同的工艺与生产出一等品是否有关?
附:
K 2
=n (ad -bc )2
(a +b )(c +d )(a +c )(b +d )
(2)以上述各种产品的频率作为各种产品发生的概率,若一等品、二等品、三等品的单件利润分别为30元、20元、15元,你认为以后该工厂应该选择哪种工艺生产该种零件?请说明理由.
解:(1)2×2列联表如下
K 2
=200×(50×40-60×50)2
110×90×100×100
≈2.02<2.706,所以没有理由认为选择不同的工艺与生
产出一等品有关.
(2)由题知运用甲工艺生产单件产品的利润X 的分布列为
X 的数学期望为E (X )=30×0.5+20×0.3+15×0.2=24,X 的方差为D (X )=(30-24)2×0.5+(20-24)2×0.3+(15-24)2×0.2=39.
乙工艺生产单件产品的利润Y 的分布列为
Y 的数学期望为E (Y )=30×0.6+20×0.1+15×0.3=24.5,
Y 的方差为D (Y )=(30-24.5)2×0.6+(20-24.5)2×0.1+(15-24.5)2×0.3=47.25. 由上述结果可以看出D (X )<D (Y ),即甲工艺波动小,虽然E (X )<E (Y ),但相差不大,所以以后选择甲工艺.
21.(本小题满分12分)为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽
样的方法从该地区调查了500位老年人,结果如下:
附:K 2
的观测值k =n (ad -bc )2
(a +b )(c +d )(a +c )(b +d )
.
(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;
(2)在犯错误的概率不超过0.01的前提下是否可认为该地区的老年人是否需要志愿者提供帮助与性别有关?
(3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?请说明理由.
解:(1)调查的500位老人中有70位需要志愿者提供帮助,因此该地区老年人中,需要帮助的老年人的比例的估算值为70
500
=14%.
(2)随机变量K 2的观测值
k =500×(40×270-30×160)2200×300×70×430
≈9.967.
由于9.967>6.635,因此,在犯错误的概率不超过0.01的前提下认为该地区的老年人是否需要志愿者提供帮助与性别有关.
(3)由(2)的结论知,该地区的老年人是否需要帮助与性别有关,并且从样本数据中能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层,并且采用分层抽样方法比采用简单随机抽样的方法更好.
22.(本小题满分12分)某市为了对学生的数理(数学与物理)学习能力进行分析,从10 000名学生中随机抽出100位学生的数理综合学习能力等级分数(6分制)作为样本,分数频数分布如下表:。