128《统计案例》--求'独立性检验'中卡方的观测值的计算和把握性判断
统计案例(精讲)(提升版)(原卷版)
8.5 统计案例(精讲)(提升版)思维导图考点一独立性检验【例1】(2022·吉林·梅河口市第五中学高三开学考试)某中学准备组建“文科”兴趣特长社团,由课外活动小组对高一学生进行了问卷调查,问卷共100道题,每题1分,总分100分,该课外活动小组随机抽取了100名学生的问卷成绩(单位:分)进行统计,将数据按照[0,20),[20,40),[40,60),[60,80),[80,100]分成5组,绘制的频率分布直方图如图所示,若将不低于60分的称为“文科方向”学生,低于60分的称为“理科方向”学生.(1)根据已知条件完成下面2×2列联表,并据此判断是否有99.5%的把握认为“文科方向”与性别有关?理科方向文科方向总计男40女45考点呈现例题剖析总计 1001人,共抽取4次,记被抽取的4人中“文科方向”的人数为X ,若每次抽取的结果是相互独立的,求X 的分布列和数学期望.参考公式:()()()()22()n ad bc a b c d a c b d χ-=++++,其中n a b c d =+++.参考临界值:()2P k αχ=0.10 0.05 0.025 0.010 0.005 0.001k2.7063.841 5.024 6.635 7.879 10.828【一隅三反】1.(2022·白山模拟)十三届全国人大四次会议表决通过了关于国民经济和社会发展第十四个五年规划和2035年远景目标纲要的决议,决定批准这个规划纲要,纲要指出:“加强原创性引领性科技攻关”.某企业集中科研骨干,攻克系列“卡脖子”技术,已成功实现离子注入机全谱系产品国产化,包括中束流、大束流、高能、特种应用及第三代半导体等离子注入机,工艺段覆盖至28nm,为我国芯片制造产业链补上重要一环,为全球芯片制造企业提供离子注入机一站式解决方案.此次技术的突破可以说为国产芯片的制造做出了重大贡献.该企业使用新技术对某款芯片进行试生产,在试产初期,生产一件该款芯片有三道工序,每道工序的生产互不影响,这三道工序的次品率分别为118,119,120.附:()()()()()22n ad bcKa b c d a c b d-=++++,n a b c d=+++.()2P K k≥0.0500.0100.0050.001 k 3.841 6.6357.87910.828(①P①100X(2)某手机生产厂商将该款芯片投入到某新款手机上使用,并对部分芯片做了技术改良,推出了两种型号的手机,甲型号手机采用没有改良的芯片,乙型号手机采用改良了的芯片,现对使用这两种型号的手机用户进行回访,就他们对开机速度进行满意度调查.据统计,回访的100名用户中,使用甲型号手机的有30人,其中对开机速度满意的有15人;使用乙型号手机的有70人,其中对开机速度满意的有55人.完成下列22⨯列联表,并判断是否有99.5%的把握认为该项技术改良与用户对开机速度的满意度有关.甲型号乙型号合计满意不满意合计2.(2022·陕西咸阳·三模(理))2022年北京冬奥组委发布的《北京2022年冬奥会和冬残奥会经济遗产报告(2022)》显示,北京冬奥会已签约45家赞助企业,冬奥会赞助成为一项跨度时间较长的营销方式.为了解该45家赞助企业每天销售额与每天线上销售时间之间的相关关系,某平台对45家赞助企业进行跟踪调查,其中每天线上销售时间不少于8小时的企业有20家,余下的企业中,每天的销售额不足30万元的企业占35,统计后得到如下22⨯列联表:销售额不少于30万元销售额不足30万元合计线上销售时间不少于8小时 17 20 线上销售时间不足8小时合计45售时间有关?(2)按销售额在上述赞助企业中采用分层抽样方法抽取5家企业.在销售额不足30万元的企业中抽取时,记“抽到线上销售时间不少于8小时的企业数”为X ,求X 的分布列和数学期望. 附: ()20P K k ≥0.050 0.010 0.001 0k3.841 6.635 10.828参考公式:()()()()2 n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.考点二 线性回归方程【例2-1】(2022·齐齐哈尔模拟)某单位为了解夏季用电量与月份的关系,对本单位2021年5月份到8月份的日平均用电量y (单位:千度)进行了统计分析,得出下表数据:月份(x )5 6 7 8 日平均用电量(y )1.93.4t7.11.7877ˆ.0y x =-t 的值为( )A .5.8B .5.6C .5.4D .5.2【例2-2】(2022·湖南模拟)《中共中央国务院关于全面推进乡村振兴加快农业农村现代化的意见》,这是21世纪以来第18个指导“三农”工作的中央一号文件.文件指出,民族要复兴,乡村必振兴.为助力乡村振兴,某电商平台为某地的农副特色产品开设直播带货专场.为了对该产品进行合理定价,用不同的单价在平台试销,得到如下数据:单价x (元/件) 8 8.2 8.4 8.6 8.8 9 销量y (万件)908483807568附:参考公式:回归方程ˆˆˆybx a =+,其中()()()iii ii 1i 1222iii 1i 1ˆnnx x y y x y nxyb x x xnx ====---==--∑∑∑∑,ˆˆay bx =-. 参考数据:614066i ii x y==∑,621434.2i i x ==∑.(1)(i )根据以上数据,求y 关于x 的线性回归方程;(ii )若该产品成本是7元/件,假设该产品全部卖出,预测把单价定为多少时,工厂获得最大利润.(2)为了解该产品的价格是否合理,在试销平台上购买了该产品的顾客中随机抽了400人,阅读“购买后的评价”得知:对价格满意的有300人,基本满意的有50人,不满意的有50人.为进一步了解顾客对该产品价格满意度形成的原因,在购买该产品的顾客中随机抽取4人进行电话回访,记抽取的4人中对价格满意的人数为随机变量X ,求随机变量X 的分布列和数学期望.(视频率为相应事件发生的概率)【一隅三反】1.(2022·安徽三模)对某位同学5次体育测试的成绩(单位:分)进行统计得到如下表格:第x 次 1 2 3 4 5 测试成绩y3940484850根据上表,可得关于的线性回归方程为ˆ3ˆy x a =+,下列结论不正确的是( )A .ˆ36a= B .这5次测试成绩的方差为20.8 C .y 与x 的线性相关系数0r < D .预测第6次体育测试的成绩约为542.(2022·安徽模拟)新冠疫情期间,口罩的消耗量日益增加,某药店出于口罩进货量的考虑,连续9天统计了第i (i 1239)x =,,,,天的口罩的销售量i y (百件),得到的数据如下:99i i i=1i=145171x y ==∑∑,,()99922ii i i i=1i=1i=1312528510953x x y y y ==-=∑∑∑,,. 参考公式:相关系数()()()()iii=122iii=1i=1nnnx x y y r x x y y --=--∑∑∑数据()i i ()i 123x y n =,,,,,,其回归直线ˆˆˆy bx a =+的斜率和截距的最小二乘估计分别为()()()iii i1222i i11ˆˆˆnn i inni i x x y y x y nxybay bx x x xnx ===---===---∑∑∑∑, (1)若用线性回归模型ˆˆˆybx a =+拟合y 与x 之间的关系,求该回归直线的方程; (2)统计学家甲认为用(1)中的线性回归模型(下面简称模型1)进行拟合,不够精确,于是尝试使用非线性模型(下面简称模型2)得到i x 与i y 之间的关系,且模型2的相关系数20989r =.,试通过计算说明模型1,2中,哪一个模型的拟合效果更好. 3.(2022·湖南模拟)《中共中央国务院关于全面推进乡村振兴加快农业农村现代化的意见》,这是21世纪以来第18个指导“三农”工作的中央一号文件.文件指出,民族要复兴,乡村必振兴.为助力乡村振兴,某电商平台为某地的农副特色产品开设直播带货专场.为了对该产品进行合理定价,用不同的单价在平台试销,得到如下数据:单价x (元/件) 8 8.2 8.4 8.6 8.8 9 销量y (万件)908483807568附:参考公式:回归方程ˆˆˆybx a =+,其中()()()iiiii 1i 1222iii 1i 1ˆnnx x y y x y nxyb x x xnx ====---==--∑∑∑∑,ˆˆay bx =-. 参考数据:614066i ii x y==∑,621434.2i i x ==∑.(1)(i )根据以上数据,求y 关于x 的线性回归方程;(ii )若该产品成本是7元/件,假设该产品全部卖出,预测把单价定为多少时,工厂获得最大利润.(2)为了解该产品的价格是否合理,在试销平台上购买了该产品的顾客中随机抽了400人,阅读“购买后的评价”得知:对价格满意的有300人,基本满意的有50人,不满意的有50人.为进一步了解顾客对该产品价格满意度形成的原因,在购买该产品的顾客中随机抽取4人进行电话回访,记抽取的4人中对价格满意的人数为随机变量X,求随机变量X的分布列和数学期望.(视频率为相应事件发生的概率)考点三非线性回归方程【例3】(2022·福建·三明一中模拟预测)当前,新一轮科技革命和产业变革蓬勃兴起,以区块链为代表的新一代信息技术迅猛发展,现收集某地近5年区块链企业总数量相关数据,如下表年份20172018201920202021编号x12345企业总数量y(单位:千个) 2.156 3.7278.30524.27936.224(1)根据表中数据判断,y a bx=+与e dxy c=(其中 2.71828e=…为自然对数的底数),哪一个回归方程类型适宜预测未来几年我国区块链企业总数量?(给出结果即可,不必说明理由),并根据你的判断结果求y关于x的回归方程;(2)为了促进公司间的合作与发展,区块链联合总部决定进行一次信息化技术比赛,邀请甲、乙、丙三家区块链公司参赛.比赛规则如下:①每场比赛有两个公司参加,并决出胜负;①每场比赛获胜的公司与未参加此场比赛的公司进行下一场的比赛;①在比赛中,若有一个公司首先获胜两场,则本次比赛结束,该公司获得此次信息化比赛的“优胜公司”.已知在每场比赛中,甲胜乙的概率为12,甲胜丙的概率为13,乙胜丙的概率为35,若首场由甲乙比赛,求甲公司获得“优胜公司”的概率.参考数据:5174.691i i y ==∑,51312.761i i i x y ==∑,5110.980i i z ==∑,5140.457i i i x z ==∑(其中ln z y =). 附:样本(),(1,2,,)i i x y i n =的最小二乘法估计公式为1221ˆni ii nii x y nx ybxnx==-=-∑∑,ˆa y bx=-.【一隅三反】1.(2022·山西二模)数据显示,中国在线直播用户规模及在线直播购物规模近几年都保持高速增长态势,下表为2017-2021年中国在线直播用户规模(单位:亿人),其中2017年-2021年对应的代码依次为1-5.年份代码x 1 2 3 4 5 市场规模y3.984.565.045.866.36参考数据: 5.16y =, 1.68v =,145.10i ii v y==∑,其中i i v x =.参考公式:对于一组数据()11v y ,,()22v y ,,…,()n n v y ,,其回归直线ˆˆˆybv a =+的斜率和截距的最小二乘估计公式分别为1221ˆni ii ni i v y nvybv nv ==-=-∑∑,ˆˆay bv =-. (1)由上表数据可知,可用函数模型ˆˆyx a =拟合y 与x 的关系,请建立y 关于x 的回归方程(ˆa ,ˆb 的值精确到0.01);(2)已知中国在线直播购物用户选择在品牌官方直播间购物的概率为p ,现从中国在线直播购物用户中随机抽取4人,记这4人中选择在品牌官方直播间购物的人数为X ,若()()34P X P X ===,求X 的分布列与期望.2.(2022·广东广州·一模)人们用大数据来描述和定义信息时代产生的海量数据,并利用这些数据处理事务和做出决策,某公司通过大数据收集到该公司销售的某电子产品1月至5月的销售量如下表. 月份x1 2 3 4 5 销售量y (万件)4.95.86.88.310.2该公司为了预测未来几个月的销售量,建立了y 关于x 的回归模型:ˆv . (1)根据所给数据与回归模型,求y 关于x 的回归方程(ˆu 的值精确到0.1);(2)已知该公司的月利润z (单位:万元)与x ,y 的关系为z x x=,根据(1)的结果,问该公司哪一个月的月利润预报值最大? 参考公式:对于一组数据()()()1122,,,,,,n n x y x y x y ,其回归直线ˆˆˆy bx a =+的斜率和截距的最小二乘估计公式分别为()()()121ˆniii nii x x y y bx x ==--=-∑∑,ˆˆay bx =-.11 / 113.(2022·广东肇庆·二模)下表是我国从2016年到2020年能源消费总量近似值y (单位:千万吨标准煤)的数据表格: 年份2016 2017 2018 2019 2020 年份代号x1 2 3 4 5 能源消费总量近似值y (单位:千万吨标准煤) 442 456 472 488 498以x 为解释变量,y 为预报变量,若以11为回归方程,则相关指数210.9946R ≈,若以22ˆln ya b x =+为回归方程,则相关指数220.9568R ≈. (1)判断11ˆyb x a =+与22ˆln y a b x =+哪一个更适宜作为能源消费总量近似值y 关于年份代号x 的回归方程,并说明理由;(2)根据(1)的判断结果及表中数据,求出y 关于年份代号x 的回归方程.参考数据:512356i i y ==∑,517212i i i x y ==∑.参考公式:回归方程ˆˆˆybx a =+中斜率和截距的最小二乘估计公式分别为:()()()1122211ˆn ni i i ii i n n ii i i x x y y x y nxy b x x x nx ====---==--∑∑∑∑,ˆˆa y bx =-.。
卡方检验的计算公式
卡方检验的计算公式卡方检验是一种在统计学中常用的方法,用于检验两个或多个分类变量之间是否存在显著的关联。
那咱们就先来瞅瞅卡方检验的计算公式到底是啥。
卡方检验的计算公式是:\(\chi^2 = \sum \frac{(O - E)^2}{E}\) 。
这里的“\(\chi^2\)”就是咱们说的卡方值啦。
其中,“\(O\)”表示实际观测值,“\(E\)”表示理论期望值。
我给您举个例子哈。
比如说咱们想研究一下,学生们的课外活动偏好和他们的性别有没有关系。
咱们把学生分成男生和女生两组,课外活动呢,分成运动、阅读、艺术这几类。
通过调查咱们得到了实际的参与人数,这就是“\(O\)”。
然后呢,根据总体的比例,咱们能算出每个组在每种活动中理论上应该有的人数,这就是“\(E\)”。
就拿运动这一项来说,假设咱们调查了 200 个学生,其中 120 个男生,80 个女生。
实际观察到有 80 个男生喜欢运动,40 个女生喜欢运动。
按照总体比例,如果男生和女生对运动的喜欢没有差别,那理论上应该有 120×(80 + 40)÷ 200 = 72 个男生喜欢运动,48 个女生喜欢运动。
这 72 和 48 就是“\(E\)”。
而实际的 80 和 40 就是“\(O\)”。
然后咱们把每个类别(运动、阅读、艺术)的“\((O - E)^2 / E\)”都算出来,再加在一起,就得到了卡方值。
卡方值算出来以后呢,咱们还要去对照卡方分布表,根据自由度和咱们设定的显著性水平(比如 0.05),来判断这个卡方值是不是足够大,从而得出两个变量之间是不是存在显著的关联。
在实际运用中,卡方检验可有用啦!我记得有一次,我们学校想了解学生们对于新开设的兴趣课程的选择是否和他们所在的年级有关。
我们就用卡方检验来分析。
那时候,大家都忙得晕头转向,收集数据、整理数据,然后再进行计算。
我和同事们对着那些数字,眼睛都快看花了。
不过当最后得出结论,发现不同年级的学生在兴趣课程选择上确实存在显著差异的时候,那种成就感真是没得说!总之啊,卡方检验的计算公式虽然看起来有点复杂,但只要咱们多琢磨琢磨,多拿实际例子练练手,就能熟练掌握,为咱们的研究和分析提供有力的支持!。
统计案例--独立性检验及其初步
独立性检验的基本思想及其初步应用知识点1.与列联表相关的概念(1)分类变量:变量的不同“值”表示个体所属的不同类型,像这样的变量称为分类变量. (2)列联表:①列出的两个分类变量的频数表, 称为列联表.①一般地,假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为:y 1 y 2 总计 x 1 a b a +b x 2 c d c +d 总计a +cb +da +b +c +d在2×2列联表中,如果两个分类变量没有关系,则应满足ad -bc ≈0, 因此|ad -bc |越小, 关系越弱; |ad -bc |越大, 关系越强. 2.等高条形图将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分别对应不同的颜色,这就是等高条形图。
等高条形图与表格相比,图形更能直观地反映出两个分类变量间是否相互影响, 常用等高条形图展示列表数据的频率特征. 列联表和等高条形图的优劣:列联表可以准确掌握总体中各部分的频率,但是需要计算;等高条形图可以比较各个部分之间的差异,明确展现两个分类变量的关系。
3.独立性检验的基本思想(1)定义:利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验. (2)公式:K 2=n ad -bc 2a +bc +d a +cb +d,其中n =a +b +c +d 为样本容量.用它的大小可以用来决定是否拒绝原来的统计假设0H .如果K 2的值较大,就拒绝0H ,即认为A 与B 是有关的.注:独立性检验的基本思想与反证法类似,由结论不成立时推出有利于结论成立的小概率事件发生,而小概率事件在一次试验中通常是不会发生的,所以认为结论在很大程度上是成立的.4.独立性检验的步骤:(1)确定分类变量,获取样本频数,得到列联表.(2) 利用公式K2=n ad-bc2a+b c+d a+c b+d计算随机变量K2的观测值k0.(3) 根据实际问题的需要推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.(4)作出判断.如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y的关系”。
(北师大版)上海市高中数学选修2-3第三章《统计案例》检测卷(包含答案解析)
一、选择题1.利用独立性检验的方法调查大学生的性别与爱好某项运动是否有关,通过随机询问400名不同的大学生是否爱好某项运动,利用22⨯列联表,计算可得2K 的观测值7.556k ≈,附表:20()P K k ≥0.15 0.100.050.025 0.010 0.005 0.001 0k 2.0722.7063.8415.0246.6357.87910.828参照附表,得到的正确结论是A .有99%以上的把握认为“爱好该项运动与性别无关”B .有99%以上的把握认为“爱好该项运动与性别有关”C .在犯错误的概率不超过0.5%的前提下,认为“爱好该项运动与性别有关”D .在犯错误的概率不超过1%的前提下,认为“爱好该项运动与性别无关”2.两个分类变量X 和Y ,值域分别为{x 1,x 2}和{y 1,y 2},其样本频数分别是a =10,b =21,c +d =35,若X 与Y 有关系的可信程度为90%,则c =( ) A .4 B .5 C .6D .73.某研究型学习小组调查研究学生使用智能手机对学习的影响.部分统计数据如下表:附表:经计算2K 的观测值10k =,则下列选项正确的是( ) A .有99.5%的把握认为使用智能手机对学习有影响 B .有99.5%的把握认为使用智能手机对学习无影响 C .有99.9%的把握认为使用智能手机对学习有影响 D .有99.9%的把握认为使用智能手机对学习无影响 4.下列命题正确的个数是:( )①对于两个分类变量X 与Y 的随机变量2K 的观测值k 来说,k 越小,判断“X 与Y 有关系”的把握程度越大;②在相关关系中,若用211c x y c e =拟合时的相关指数为21R ,用2y bx a =+拟合时的相关指数为22R ,且2212R R >,则1y 的拟合效果好;③利用计算机产生0~1之间的均匀随机数a ,则事件“310a ->”发生的概率为23; ④“0,0a b >>”是“2b aa b+≥”的充分不必要条件 A .1B .2C .3D .45.给出下列说法:①用()()221211ˆni i i n i i i y y R y y ==-=--∑∑刻画回归效果,当2R 越大时,模型的拟合效果越差,反之则越好;②归纳推理是由特殊到一般的推理,而演绎推移则是由一般到特殊的推理;③综合法证明数学问题是“由因索果”,分析法证明数学问题是“执果索因”;④设有一个回归方程ˆ35yx =+,变量x 增加1个单位时,y 平均增加5个单位;⑤线性回归方程ˆˆˆy bx a =+必过点(),x y .其中错误的个数有( )A .0个B .1个C .2个D .3个6.某班主任对全班50名学生进行了作业量的调查,数据如表:若推断“学生的性别与认为作业量大有关”,则这种推断犯错误的概率不超过( )附:()()()()()22n ad bc K a b c d a c b d -=++++A .0.01B .0.025C .0.10D .0.057.某研究型学习小组调查研究学生使用智能手机对学习的影响,部分统计数据如下表:使用智能手机 不使用智能手机 总计 学习成绩优秀 4 8 12 学习成绩不优秀 16 2 18 总计201030计算得K 2=10,则下列选项正确的是( ) A .有99.5%的把握认为使用智能手机对学习有影响B.有99.5%的把握认为使用智能手机对学习无影响C.在犯错误的概率不超过0.1%的前提下,认为使用智能手机对学习有影响D.在犯错误的概率不超过1%的前提下,认为使用智能手机对学习无影响8.为考察数学成绩与物理成绩的关系,在高二随机抽取了300名学生,得到下面的列联表:现判断数学成绩与物理成绩有关系,则犯错误的概率不超过()A.0.005 B.0.01 C.0.02 D.0.059.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”,得到如下的列联表:由此表得到的正确结论是()A.在犯错误的概率不超过0.01的前提下,认为“该市居民能否做到‘光盘’与性别有关”B.在犯错误的概率不超过0.01的前提下,认为“该市居民能否做到‘光盘’与性别无关”C.在犯错误的概率不超过0.1的前提下,认为“该市居民能否做到‘光盘’与性别有关”D.在犯错误的概率不超过0.1的前提下,认为“该市居民能否做到‘光盘’与性别无关”10.以下四个命题中:①在回归分析中,可用相关指数R2的值判断拟合的效果,R2越大,模型的拟合效果越好;②两个随机变量的线性相关性越强,相关系数的绝对值越接近1;③若数据x1,x2,x3,…,x n的方差为1,则2x1,2x2,2x3,…,2x n的方差为2;④对分类变量x与y的随机变量K2的观测值k来说,k越小,判断“x与y有关系”的把握程度越大.其中真命题的个数为()A.1 B.2C.3 D.411.利用独立性检验来考虑两个分类变量X和Y是否有关系时,通过查阅临界值表来确定推断“X与Y有关系”的可信度,如果k>5.024,那么就推断“X和Y有关系”,这种推断犯错误的概率不超过()A .0.25B .0.75C .0.025D .0.97512.某工厂为了调查工人文化程度与月收入的关系,随机抽取了部分工人,得到如下列表:由上表中数据计算得2K =()21051030204555503075⨯⨯-⨯⨯⨯⨯≈6.109,请根据下表,估计有多大把握认为“文化程度与月收入有关系”( )A .1%B .99%C .2.5%D .97.5%二、填空题13.在一次独立试验中,有200人按性别和是否色弱分类如下表(单位:人)男 女 正常 73 117 色弱73你能在犯错误的概率不超过_____的前提下认为“是否色弱与性别有关”?14.利用独立性检验考察两个分类变量X 与Y 是否有关系时,若K2的观测值k=6.132,则有__________的把握认为“X 与Y 有关系”. P(K2≥k0) 0.05 0.025 0.010 0.005 k03.8415.0246.6357.87915.已知的取值如表所示:若与呈线性相关,且回归方程为,则等于 .2 3 454616.下列4个命题:①为了了解800名学生对学校某项教改试验的意见,打算从中抽取一个容量为40的样本,考虑用系统抽样,则分段的间隔为40;②四边形ABCD 为长方形,2AB =,1BC =,O 为AB 中点,在长方形ABCD 内随机取一点P ,取得的P 点到O 的距离大于1的概率为12π-; ③把函数3sin 23y x π⎛⎫=+⎪⎝⎭的图象向右平移6π个单位,可得到3sin 2y x =的图象; ④已知回归直线的斜率的估计值为1.23,样本点的中心为()4,5,则回归直线方程为1.230.08y x =+.其中正确的命题有__________.(填上所有正确命题的编号)17.4月16日摩拜单车进驻大连市旅顺口区,绿色出行引领时尚,旅顺口区进行了“经常使用共享单车与年龄关系”的调查,得下列22⨯列联表:年轻人 非年轻人 合计 经常使用单车用户 100 20 120 不常使用单车用户 60 20 80 合计16040200则得到的2χ=__________.(小数点后保留一位) (附:()()()()()22χ-=++++n ad bc a b c d a c b d )18.已知下列命题:①从匀速传递的产品生产流水线上,质检员每30分钟从生产流水线中抽取一件产品进行某项指标检测,这样的抽样方法是系统抽样;②两个变量的线性相关程度越强,则相关系数的值越接近于1;③两个分类变量X 与Y 的观测值2k ,若2k 越小,则说明“X 与Y 有关系”的把握程度越大;④随机变量X ~(0,1)N ,则(1)2(1)1P X P X <=<-. 其中为真命题的是__________. 19.给出下列四个结论:(1)相关系数r 的取值范围是1r <;(2)用相关系数r 来刻画回归效果,r 的值越大,说明模型的拟合效果越差;(3)一个袋子里装有大小相同的5个白球和5个黑球,从中任取4个,则其中所含白球个数的期望是2;(4) 一个篮球运动员投篮一次得3分的概率为a ,得2分的概率为b ,不得分的概率为c ,且(),,0,1a b c ∈,已知他投篮一次得分的数学期望为2,则213a b+的最小值为163.其中正确结论的序号为______________.20.2018年春季,世界各地相继出现流感疫情,这已经成为全球性的公共卫生问题.为了考察某种流感疫苗的效果,某实验室随机抽取100只健康小鼠进行试验,得到如下列联表:感染 未感染 总计 注射 10 40 50 未注射 20 30 50 总计3070100参照附表,在犯错误的概率最多不超过____的前提下,可认为“注射疫苗”与“感染流感”有关系.(参考公式:()()()()()22n ad bc K a b c d a c b d -=++++.) 20()P K k ≥ 0.100.05 0.025 0.010 0.005 0.001 0k 2.7063.8415.0246.6357.87910.828三、解答题21.我国新型冠状病毒肺炎疫情期间,以网络购物和网上服务所代表的新兴消费展现出了强大的生命力,新兴消费将成为我国消费增长的新动能.某市为了了解本地居民在2020年2月至3月两个月网络购物消费情况,在网上随机对1000人做了问卷调查,得如表频数分布表:(1)作出这些数据的频率分布直方图,并估计本市居民此期间网络购物的消费平均值; (2)在调查问卷中有一项是填写本人年龄,为研究网购金额和网购人年龄的关系,以网购金额是否超过4000元为标准进行分层抽样,从上述1000人中抽取200人,得到如表列联表,请将表补充完整并根据列联表判断,在此期间是否有95%的把握认为网购金额与网购人年龄有关.参考公式和数据:()()()()()22n ad bcKa b c d a c b d-=++++.(其中n a b c d=+++为样本容量)22.2020年3月,因为新冠肺炎疫情的影响,我市全体学生只能在网上在线学习,为了研究学生在线学习情况,市教研院数学学科随机从市区各高中学校抽取120名学生对线上教学情况进行调查(其中,男生与女生的人数之比为3:1),结果发现:男生中有40名对于线上教学满意,女生中有10名表示对于线上教学不满意.(1)请完成如表2×2列联表,并回答能否有95%的把握认为对“线上教学是否满意与性别有关”;态度性别满意不满意合计男生女生合计120(2)采用分层抽样的方法,从被调查的对线上教学满意的学生中,抽取6名学生,再从这6名学生中抽取2名学生,作线上学习的经验介绍,求所选取的2名学生性别不同的概率.附:参考公式及临界值表()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++23.新冠肺炎疫情防控时期,各级各类学校纷纷组织师生开展了“停课不停学”活动,为了解班级线上学习情况,某位班主任老师进行了有关调查研究.(1)从班级随机选出5名同学,对比研究了线上学习前后两次数学考试成绩,如下表:参考公式:在线性回归方程y bx a=+,()()()() 1122211n ni i i ii in ni ii ix x y y x y nx ybx x x n x ====---==--∑∑∑∑,a y bx=-(2)针对全班45名同学(25名女生,20名男生)的线上学习满意度调查中,女姓满意率为80%,男生满意率为75%,填写下面列联表,判断能否在犯错误概率不超过0.01的前提下,认为线上学习满意度与学生性别有关?参考公式和数据:()()()()()2n ad bcxa b c d a c b d-=++++,()20.0500.0100.0013.8416.63510.828P x kk≥24.某足球运动员进行射门训练,若打进球门算成功,否则算失败.已知某天该球员射门成功次数与射门距离的统计数据如下:(1)请问是否有90%的把握认为该球员射门成功与射门距离是否超过30米有关?参考公式及数据:22(),()()()()n ad bc K n a b c d a b c d a c b d -==+++++++.(2)当该球员距离球门30米射门时,设射门角(射门点与球场底线中点的连线和底线所成的锐角或直角)为([0,])2πθθ∈,其射门成功率为2+3()cos sin 4f θθθθθ=+⋅-,求该球员射门成功率最高时射门角θ的值.25.某大学读书协会为了解本校大学生网上阅读与传统纸质阅读的情况,调查了该大学1000名大学生(男、女各占一半),就偏向网上阅读和偏向传统纸质阅读的情况做了调查记录.记录显示,偏向网上阅读的男大学生比偏向传统纸质阅读的男大学生多300人,这1000名大学生中,偏向传统纸质阅读的大学生共有400人. (1)根据题意,完成下列2×2列联表;(2)根据列联表,判断能否有99.9%的把握认为该大学的大学生的阅读方式与性别有关,说明你的理由.附: 22(-)()()()()n ad bc K a b c d a c b d =++++(n=a+b+c+d ).26.2016年欧洲杯将于2016年6月10日到7月10日在法国举行.为了使得赛会有序进行,欧足联在全球范围内选聘了30名志愿者(其中男性16名,女性14名).调查发现,男性中有10人会英语,女性中有6人会英语. (1)根据以上数据完成以下2×2列联表:并回答能否在犯错的概率不超过0.10的前提下认为性别与会英语有关?参考公式:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++参考数据:(2)会英语的6名女性志愿者中曾有4人在法国工作过,若从会英语的6名女性志愿者中随机抽取2人做导游,则抽出的2人都在法国工作过的概率是多少?【参考答案】***试卷处理标记,请不要删除一、选择题 1.B 解析:B 【分析】根据2K 的观测值7.556k ≈,对照表中数据,即可得到相应的结论. 【详解】根据2K 的观测值7.556k ≈,对照表中数据得出有0.01的几率说明这两个变量之间的关系是不可信的,即有10.0199%-=的把握说明两个变量之间有关系,故选B . 【点睛】本题主要考查独立性检验的应用,独立性检验的一般步骤:(1)根据样本数据制成22⨯列联表;(2)根据公式计算2K 的观测值k ;(3)查表比较k 与临界值的大小关系,作统计判断.(注意:在实际问题中,独立性检验的结论也仅仅是一种数学关系,得到的结论也可能犯错误)2.B解析:B 【解析】【分析】根据22⨯列联表,以及独立检验随机变量的临界值参考表,计算2K 对应的值,验证24,5,6,7,c K =是否恰好满足即可【详解】列22⨯列联表可知:()22661030521 3.024 2.70615513135K ⨯⨯-⨯=≈>⨯⨯⨯,所以5c =时,X 与Y 有关系的可信程度为90%,而其余的值4,6,7c c c ===皆不满足,故选B . 【点睛】独立性检验的一般步骤:(1)根据样本数据制成22⨯列联表;(2)根据公式()()()()()22n ad bc K a b a d a c b d -=++++计算2K 的值;(3) 查表比较2K 与临界值的大小关系,作统计判断.(注意:在实际问题中,独立性检验的结论也仅仅是一种数学关系,得到的结论也可能犯错误.)3.A解析:A 【解析】 【分析】由题意结合2K 的观测值k 由独立性检验的数学思想给出正确的结论即可. 【详解】由于2K 的观测值10k =7.879>,其对应的值0.0050.5%=,据此结合独立性检验的思想可知:有99.5%的把握认为使用智能手机对学习有影响. 本题选择A 选项. 【点睛】独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释.4.C解析:C 【解析】分析:根据独立性检验的性质可判断①;根据回归分析的基本原理可判断②;根据几何概型概率公式可判断③; 根据不等式的性质可判断④.详解:①对于两个分类变量X 与Y 的随机变量2K 的观测值k 来说,k 越小,判断“X 与Y 有关系”的把握程度越小,①错误;②在相关关系中,若用211c x y c e =拟合时的相关指数为21R ,用2y bx a =+拟合时的相关指数为22R ,且2212R R >,则1y 的拟合效果好,②正确;③利用计算机产生0~1之间的均匀随机数a ,则事件“310a ->”发生的概率为1123103-=-,正确; ④“0,0a b >>”可得到“2b a a b +≥”, “2b aa b+≥”时“0,0a b >>”不一定成立,所以“0,0a b >>”是“2b aa b+≥”的充分不必要条件,正确,即正确命题的个数是3,故选C. 点睛:本题主要通过对多个命题真假的判断,主要综合独立性检验、回归分析、几何概型概率公式、不等式的性质,属于中档题.这种题型综合性较强,也是高考的命题热点,同学们往往因为某一处知识点掌握不好而导致“全盘皆输”,因此做这类题目更要细心、多读题,尽量挖掘出题目中的隐含条件,另外,要注意从简单的自己已经掌握的知识点入手,然后集中精力突破较难的命题.5.B解析:B 【解析】分析:①可由相关指数的概念判断;②③由推理,综合法和反证法的概念判断;④和⑤由线性回归分析判断即可.详解:①相关指数2R 越大,则相关性越强,模型的拟合效果越好.错误;② 归纳推理是由特殊到一般的推理,而演绎推理是由一般到特殊的推理,由归纳推理与演绎推理的概念可知正确.③综合法证明数学问题是“由因索果”,分析法证明数学问题是“执果索因”,由概念可知正确. ④由回归方程的系数意义知,当变量x 增加1个单位时,y 平均增加5个单位,正确;⑤线性回归方程ˆˆˆy bx a =+必过样本中心点(),x y ,正确.故选B.点睛:本题是一道综合性考题,即考查了推理与证明的原理,又考查了利用2R 判断模型拟合程度,同时还考查了线性回归分析的相关概念,属于中档题.6.B解析:B分析:根据表格中所给数据,代入公式()()()()()22n ad bcKa b c d a c b d-=++++,求出观测值,把所求的观测值同临界值进行比较,从而可得结果.详解:根据表中数据得到()22501815895.059 5.02427232426K⨯⨯-⨯=≈>⨯⨯⨯,所以,若推断“学生的性别与认为作业量大有关”,则这种推断犯错误的概率不超过0.025,故选B.点睛:本题主要考查独立性检验的应用,解题的关键是正确求出这组数据的观测值,计算过程一定要细心,避免出现计算错误,属于基础题.7.A解析:A【解析】因为7.879<K2<10.828,所以有99.5%的把握认为使用智能手机对学习有影响.故选A.8.D解析:D【解析】因为K2的观测值k=2300(371433585) 12217872228⨯-⨯⨯⨯⨯≈4.514>3.841,所以在犯错误的概率不超过0.05的前提下认为数学成绩与物理成绩有关系. 选D. 9.C解析:C【解析】由2×2列联表得到a=45,b=10,c=30,d=15.则a+b=55,c+d=45,a+c=75,b+d=25,ad=675,bc=300,n=100.所以K2的观测值k=2100675-30055457525⨯⨯⨯()≈3.030.因为2.706<3.030<3.841.选C.点睛:根据卡方公式求K2,再与参考数据比较,最后作出判断.10.B解析:B【解析】由题意得,若数据x1,x2,x3,…,x n的方差为1,则2x1,2x2,2x3,…,2x n的方差为4,所以③不正确;对分类变量x与y的随机变量K2的观测值k来说,k越小,判断“x与y 有关系”的把握程度越小,所以④不正确.其中①、②是正确的,故选B.11.C解析:C【解析】∵P(k>5.024)=0.025,故在犯错误的概率不超过0.025的条件下,认为“X和Y考点:独立性检验.12.D解析:D 【解析】 试题由题根据二列联表得出;2K =()21051030204555503075⨯⨯-⨯⨯⨯⨯≈6.109,对应参考值得 2 5.024K >,则有10.0250.975-=,即有97.5%的把握认为文化程度与月收入有关系。
独立性检验
99.9%把握认 为A与B有关
2 6.635
1%把握认为 A与B无关
99%把握认 为A与B有关
2 2.706 10%把握认为 90%把握认
A与B无关
为A与B有关
2 2.706
没有充分的依据显示A与B有关, 但也不能显示A与B无关
独立性检验
解:
吸烟 不吸烟
总计
患病 49 42 91
不患病 2099 7775 9874
P(χ≥x0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 x0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
例如
2 10.828
0.1%把握认 为A与B无关
2
n(ad bc)2
(a c)(b d)(a b)(c d)
独立性检验
用χ2统计量研究 这类问题的方法
步骤
通过数据和图表分析,得到 结论是:吸烟与患病有关
结论的可靠 程度如何?
第一步:列出2×2列联表
吸烟 不吸烟
总计
患病 a c
a+c
不患病 b d
b+d
总计 a+b c+d a+b+c+d
某医疗机构为了了解呼吸道疾病与吸 烟是否有关,进行了一次抽样调查,共调 查了515个成年人,其中吸烟者220人,不 吸烟者295人,调查结果是:吸烟的220人 中37人患病, 183人不患病;不吸烟的 295人中21人患病, 274人不患病。
根据这些数据能否断定:患肺癌与 吸烟有关吗?
列2×2联 表
(北师大版)南京市高中数学选修2-3第三章《统计案例》测试题(答案解析)
一、选择题1.以模型kx y ce =去拟合一组数据时,为了求出回归方程,设ln z y =,其变换后得到线性回归方程0.53z x =+,则c =( ) A .3B .3eC .0.5D .0.5e2.2019年10月18日-27日,第七届世界军人运动会在湖北武汉举办,中国代表团共获得133金64银42铜,共239枚奖牌.为了调查各国参赛人员对主办方的满意程度,研究人员随机抽取了500名参赛运动员进行调查,所得数据如下所示,现有如下说法:①在参与调查的500名运动员中任取1人,抽到对主办方表示满意的男性运动员的概率为12;②在犯错误的概率不超过1%的前提下可以认为“是否对主办方表示满意与运动员的性别有关”;③没有99.9%的把握认为“是否对主办方表示满意与运动员的性别有关”;则正确命题的个数为( )附:22()()()()()n ad bc K a b c d a c b d -=++++A .0B .1C .2D .33.下列关于回归分析与独立性检验的说法正确的是() A .回归分析和独立性检验没有什么区别;B .回归分析是对两个变量准确关系的分析,而独立性检验是分析两个变量之间的不确定性关系;C .独立性检验可以100%确定两个变量之间是否具有某种关系.D .回归分析研究两个变量之间的相关关系,独立性检验是对两个变量是否具有某种关系的一种检验;4.已知x 与y 之间的几组数据如下表:x 1 2 4 5 y 0 2 3 5假设根据上表数据所得线性回归直线方程y=bx+a,若某同学根据上表中的前两组数据(1,0)和(2,2),求得的直线方程为y=b'x+a',则以下结论正确的是( ) A .b>b',a>a' B .b<b',a<a' C .b>b',a<a'D .b<b',a>a'5.某研究型学习小组调查研究学生使用智能手机对学习的影响.部分统计数据如下表:附表:经计算2K 的观测值10k ,则下列选项正确的是( ) A .有99.5%的把握认为使用智能手机对学习有影响 B .有99.5%的把握认为使用智能手机对学习无影响 C .有99.9%的把握认为使用智能手机对学习有影响 D .有99.9%的把握认为使用智能手机对学习无影响6.某学校课题组为了研究学生的数学成绩和物理成绩之间的关系,随机抽取高二年级20名学生某次考试成绩(百分制)如下表所示: 序号 12345678910 11 12 13 14 15 16 17 18 19 20数学成绩 95 75 80 94 92 65 67 84 987167 93 64 787790 57 83 72 83物理成绩90 63 72 87 917158 82 93 817782 48 85 69 91 61 84 78 86若数学成绩90分(含90分)以上为优秀,物理成绩85(含85分)以上为优秀,则有多少把握认为学生的数学成绩与物理成绩有关系( )A .95%B .97.5%C .99.5%D .99.9%7.下列判断错误的是A .若随机变量ξ服从正态分布()()21,,30.72N P σξ≤=,则()10.28P ξ≤-=;B .若n 组数据()()()1122,,,,...,,n n x y x y x y 的散点都在1y x =-+上,则相关系数1r =-;C .若随机变量ξ服从二项分布: 15,5B ξ⎛⎫~ ⎪⎝⎭, 则()1E ξ=; D .am bm >是a b >的充分不必要条件;8.某中学共有5000人,其中男生3500人,女生1500人,为了了解该校学生每周平均体育锻炼时间的情况以及该校学生每周平均体育锻炼时间是否与性别有关,现在用分层抽样的方法从中收集300位学生每周平均体育锻炼时间的样本数据(单位:小时),其频率分布直方图如下:附:22()=()()()()n ad bc K a c b d a d b c -++++,其中n a b c d =+++.20()P K k ≥0.100.050.01 0.0050k 2.7063.8416.6357.879已知在样本数据中,有60位女生的每周平均体育锻炼时间超过4小时,根据独立性检验原理,我们( )A .没有理由认为“该校学生每周平均体育锻炼时间与性别有关”B .有95%的把握认为“该校学生每周平均体育锻炼时间与性别有关”C .有95%的把握认为“该校学生每周平均体育锻炼时间与性别无关”D .有99.5%的把握认为“该校学生每周平均体育锻炼时间与性别有关”9.通过随机询问72名不同性别的大学生在购买食物时是否看营养说明,得到如下列联表:性别与读营养说明列联表女 男 合计读营养说明 16 28 44 不读营养说明 20 8 28 总计363672请问性别和读营养说明之间在多大程度上有关系 ( ) A .99%的可能性 B .99.75%的可能性 C .99.5%的可能性 D .97.5%的可能性10.下列命题中:①线性回归方程y bx a =+必过点(),x y ;②在回归方程35y x =-中,当变量增加一个单位时,y 平均增加5个单位; ③在回归分析中,相关指数2R 为0.80的模型比相关指数2R 为0.98的模型拟合的效果要好;④在回归直线0.58ˆyx =-中,变量2x =时,变量y 的值一定是-7. 其中假命题的个数是 ( ) A .1 B .2C .3D .411.某工厂为了调查工人文化程度与月收入的关系,随机抽取了部分工人,得到如下列表:由上表中数据计算得2K =()21051030204555503075⨯⨯-⨯⨯⨯⨯≈6.109,请根据下表,估计有多大把握认为“文化程度与月收入有关系”( )A .1%B .99%C .2.5%D .97.5%12.已知回归方程0.8585.7y x ∧=-,则该方程在样本()165,57 处的残差为( ) A .111.55B .54.5C .3.45D .2.45二、填空题13.如果根据性别与是否爱好运动的列联表得到K 2≈3.852>3.841,则判断性别与是否爱好运动有关,那么这种判断犯错的可能性不超过________. 14.若两个分类变量X 与Y 的列联表为:则“X 与Y 之间有关系”这个结论出错的可能性为________.15.新闻媒体为了了解观众对央视某节目的喜爱与性别是否有关,随机调查了观看该节目的观众110名,得到如下的2×2列联表:试根据样本估计总体的思想,估计约有________的把握认为“喜爱该节目与否和性别有关”. 参考附表:(参考公式:K 2=()()()()()2n ad bc a b c d a c b d -++++,其中n=a+b+c+d)16.如表是降耗技术改造后生产某产品过程中记录产量(吨)与相应的生产能耗(吨标准煤)的几组对应数据,根据表中提供的数据,求出y 关于x 的线性回归方程ˆˆ0.70.3yx =+,那么表中m 的值为__________.17.已知方程ˆ0.8582.71yx =-是根据女大学生的身高预报她的体重的回归方程,其中x 的单位是cm ,ˆy的单位是kg ,那么针对某个体(160,53)的残差是______________. 18.一个三位自然数百位,十位,个位上的数字依次为a ,b ,c ,当且仅当有两个数字的和等于第三个数字时称为“有缘数”(如213,134等),若{},,1234a b c ∈,,,,且a ,b ,c互不相同,则这个三位数为”有缘数”的概率是__________. 19.给出下列结论:(1)在回归分析中,可用相关指数R 2的值判断模型的拟合效果,R 2越大,模型的拟合效果越好;(2)某工产加工的某种钢管,内径与规定的内径尺寸之差是离散型随机变量; (3)随机变量的方差和标准差都反映了随机变量的取值偏离于均值的平均程度,它们越小,则随机变量偏离于均值的平均程度越小;(4)若关于x 的不等式2x x a a -+-≥在R 上恒成立,则a 的最大值是1;(5)甲、乙两人向同一目标同时射击一次,事件A :“甲、乙中至少一人击中目标”与事件B :“甲,乙都没有击中目标”是相互独立事件.其中结论正确的是 .(把所有正确结论的序号填上)20.在2017年3月15日,某市物价部门对本市的5家商场的某种商品的一天销售量及其价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示: 价格x 9 9.5 10 10.5 11 销售量y1110865由散点图可知,销售量y 与价格x 之间有较好的线性相关关系,其线性回归方程是:3.2y x a =-+,则a =__________.三、解答题21.某大型现代化农场在种植某种大棚有机无公害的蔬菜时,为创造更大价值,提高亩产量,积极开展技术创新活动.该农场采用了延长光照时间的方案,该农场选取了20间大棚(每间一亩)进行试点,得到各间大棚产量数据绘制成散点图.光照时长为x (单位:小时),大棚蔬菜产量为y (单位:千斤每亩),记ln w x =.(1)根据散点图判断,y a bx =+与ln y c d x =+⋅,哪一个适宜作为大棚蔬菜产量y 关于光照时长x 的回归方程类型(给出判断即可,不必说明理由);(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(结果保留小数点后两位)(3)根据实际种植情况,发现上述回归方程在光照时长位于6~14小时内拟合程度良好,利用(2)中所求方程估计当光照时长为2e 小时(自然对数的底 2.71828e ≈),大棚蔬菜亩产约为多少. 参数数据:参考公式:β关于α的线性回归方程m n βα=⋅+中,1221i ii nii n m n αβαβαα==-⋅=-∑∑,n m βα=-⋅22.在传染病学中,通常把从致病刺激物侵入机体或者对机体发生作用起,到机体出现反应或开始呈现该疾病对应的相关症状的这一阶段称为潜伏期.一研究团队统计了某地区200名患者的相关信息,得到如下表格:(1)该传染病的潜伏期受诸多因素的影响,为研究潜伏期与患者年龄的关系,根据上表数据将如下列联表补充完整,并根据列联表判断是否有99%的把握认为该传染病的潜伏期与患者年龄有关.(2)将200名患者的潜伏期超过6天的频率视为该地区每名患者潜伏期超过6天发生的概率,每名患者的潜伏期是否超过6天相互独立.为了深入研究,该团队随机调查了该地区20名患者,其中潜伏期超过6天的人数为X ,求随机变量X 的期望和方差. 附:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++. 23.新冠肺炎疫情防控时期,各级各类学校纷纷组织师生开展了“停课不停学”活动,为了解班级线上学习情况,某位班主任老师进行了有关调查研究.(1)从班级随机选出5名同学,对比研究了线上学习前后两次数学考试成绩,如下表:参考公式:在线性回归方程y bx a =+,()()()()1122211n niii ii i nniii i x x y y x y nx yb x x xn x====---==--∑∑∑∑,a y bx =-(2)针对全班45名同学(25名女生,20名男生)的线上学习满意度调查中,女姓满意率为80%,男生满意率为75%,填写下面列联表,判断能否在犯错误概率不超过0.01的前提下,认为线上学习满意度与学生性别有关?参考公式和数据:()()()()()2n ad bc x a b c d a c b d -=++++,()20.0500.0100.0013.8416.63510.828P x k k ≥24.为了了解某校高中生的身体质量情况,某调查机构进行了一次高一学生体重和身高的抽样调查,从中抽取了8名学生(编号为18)的身高(cm)x 和体重(kg)y 数据.如下表,某调查机构分析发现学生的身高和体重之间有较强的线性相关关系,在编号为6的体检数据丢失之前,调查员甲已进行相关的数据分析并计算出该组数据的线性回归方程为ˆˆ0.5ya x =+,且根据回归方程预估一名身高为180cm 的学生体重为71kg ,计算得到的其他数据如下:81170,89920i ii x x y===∑.(1)求a 的值及表格中8名学生体重的平均值y ;(2)在数据处理时,调查员乙发现编号为8的学生体重数据有误,应为63kg ,身高数据无误.请你根据调查员乙更正的数据重新计算线性回归方程,并据此预估一名身高为180cm 的学生的体重.附:回归直线方程ˆˆˆy a bx=+的斜率和截距的最小二乘法估计分别为:1221ˆni ii ni i x ynx ybx nx==-=-∑∑,ˆˆa y bx=-. 25.冠状病毒是一个大型病毒家族,今年出现的新型冠状病毒(nCoV )是以前从未在人体中发现的冠状病毒新毒株.(1)某科研团队为研究潜伏期与新冠肺炎患者年龄的关系,组织专家统计了该地区新冠肺炎患者新冠病毒潜伏期的相关信息,其中被统计的患者中60岁以下的人数与60岁以上的人数相同,60岁以下且潜伏期在7天以下的人数约占15,60岁以上且潜伏期在7天以下的人数约占35,若研究得到在犯错误概率不超过0.010的前提下,认为潜伏期与新冠肺炎患者年龄有关,现设被统计的60岁以上的人员人数为5x ,请完成下面2×2列联表并计算被统计的60岁以上的人员至少多少人?附1:()()()()()22n ad bc X a b c d a c b d -=++++,其中n a b c d =+++()20P X k ≥0.100 0.050 0.010 0.005 0.001 0k 2.7063.8416.6357.87910.828(2)某地区的新冠肺炎治愈人数y (人)与3月份的时间x (日)满足回归直线方程ˆˆˆybx a =+,统计数据如下: 3月日期(日) 2 3 4 5 6治愈人数(人)25304045t已知5=11405i i y y ==∑,52=190i i x =∑,5=1885i i i x y =∑,请利用所给数据求t 和回归直线方程ˆˆˆy bx a =+;附2:()1221ˆni ii ni i x y nx ybx n x ==-⋅=-∑∑,ˆˆa y bx=-. 26.某企业组织应聘该企业的100名应届毕业生参加专业能力测试(满分100分),这100名毕业生的成绩的频率分布直方图如图所示.(Ⅰ)该企业拟以成绩的中位数作为分数线来确定进入面试阶段的毕业生名单,根据频率分布直方图求进入该企业面试的分数线;(Ⅱ)若被测试的毕业生中有40名女生,进入面试的有15名女生,35名男生,填写下面列联表,并根据列联表判断是否有95%的把握认为成绩与性别有关.成绩<分数线成绩≥分数线 总计附:()()()()()22n ad bc K a b c d a c b d -=++++)2k【参考答案】***试卷处理标记,请不要删除一、选择题 1.B 解析:B 【分析】根据指对数互化求解即可. 【详解】解:因为0.53z x =+,ln z y =,所以0.53ln x y +=,所以0.5330.5x x y e e e +==⨯,故3c e =.故选:B. 【点睛】本题考查非线性回归问题的转化,是基础题.2.B解析:B 【分析】依次判断每个选项:计算概率为25得到①错误;计算2 5.952K ≈得到②错,③对得到答案. 【详解】任取1名参赛人员,抽到对主办方表示满意的男性运动员的概率为20025005=,故①错误;22(2003050220)5005.95225025042080K ⨯-⨯⨯=≈⨯⨯⨯,故②错,③对故选:B . 【点睛】本题考查了概率的计算和独立性检验,意在考查学生的综合应用能力.3.D解析:D 【分析】根据题意可知,利用回归分析和独立性检验的定义,排除错误选项,即可求解出答案. 【详解】回归分析是指将具有相关关系的两个变量之间的数量关系进行测定,通过建立数学表达式进行统计估计和预测的统计研究方法.独立性检验是对两个变量之间是否具有某种关系的分析,并且可以分析这两个变量在多大程度上具有这种关系,但不能100%肯定这种关系.根据以上定义,可知A 、B 、C 均错误,故答案选D . 【点睛】本题主要考查了回归分析与独立性检验的定义的区别.4.D解析:D 【解析】 【分析】先根据()()1,0,2,2求得直线y b x a ='+'的方程.然后计算出回归直线方程y bx a =+,由此比较大小,得出正确的结论. 【详解】由于直线y b x a ='+'过()()1,0,2,2,将两点坐标代入直线方程得022b a b a +=⎧⎨+=''''⎩,解得2,2b a ''==-.124534x +++==,02352.54y +++==,1122334414122542x y x y x y x y +++=+++=.2222123414162546x x x x +++=+++=,故24243 2.54230121.24643463610b -⨯⨯-====-⨯-, 2.5 1.23 2.5 3.6 1.1a =-⨯=-=-.所以,a a b b >'<',故选D.【点睛】本小题主要考查利用直线上的两点坐标求直线方程的方法,考查回归直线方程的计算,属于中档题.5.A解析:A 【解析】 【分析】由题意结合2K 的观测值k 由独立性检验的数学思想给出正确的结论即可. 【详解】由于2K 的观测值10k =7.879>,其对应的值0.0050.5%=,据此结合独立性检验的思想可知:有99.5%的把握认为使用智能手机对学习有影响. 本题选择A 选项. 【点睛】独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释.6.C解析:C 【解析】分析:根据题意,列出22⨯列联表,求出观测值2K ,根据观测值对应的数值得出结论. 详解:根据题意,列出22⨯列联表,如下;则220(51212)8.80177.879671413K ⨯⨯-⨯==>⨯⨯⨯,因为观测值对应的数值为0.005,所以有99.5%的把握认为学生的数学成绩与物理成绩之间有关系.故选C.点睛:本题考查了独立性检验的应用,属于基础题.考查利用数学知识研究实际问题的能力以及相应的运算能力.7.D解析:D 【解析】分析:根据正态分布的对称性求出()1P ξ≤-的值,判断A 正确; 根据线性相关关系与相关系数的定义,判断B 正确; 根据二项分布的均值计算公式求出()E ξ的值,判断C 正确; 判断充分性和必要性是否成立,得出D 错误.详解:对于A ,随机变量ξ服从正态分布()21,N σ,∴曲线关于1ξ=对称,131310.720.28PP P ξξξ∴≤-=≥=-≤=-=()()(),A 正确;对于B ,若n 组数据()()()1122,,,,...,,n n x y x y x y 的散点都在1y x =-+上, 则x y ,成负相关,且相关关系最强,此时相关系数1r =-,B 正确;对于C ,若随机变量ξ服从二项分布: 15,5B ξ⎛⎫~ ⎪⎝⎭,则1515E(),ξ=⨯= C 正确;对于D ,am >bm 时,a >b 不一定成立,即充分性不成立,a b am bm >时,> 不一定成立,即必要性不成立,是既不充分也不必要条件,D 错误. 故选:D .点睛:本题考查了命题真假的判断问题,是综合题.8.B解析:B 【解析】分析:根据题设收集的数据,得到男生学生的人数,进而得出22⨯的列联表,利用计算公式,求解2K 的值,即可作出判断.详解:由题意得,从5000人中,其中男生3500人,女生1500人,抽取一个容量为300人的样本,其中男女各抽取的人数为35003002105000⨯=人,1500300905000⨯=人, 又由频率分布直方图可知,每周体育锻炼时间超过4小时的人数的频率为0.75,所以在300人中每周体育锻炼时间超过4小时的人数为3000.75225⨯=人, 又在每周体育锻炼时间超过4小时的人数中,女生有60人,所以男生有22560165-=人,可得如下的22⨯的列联表:结合列联表可算得22300(456016530) 4.762 3.8412109075225K ⨯⨯-⨯=≈>⨯⨯⨯,所以有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”, 故选B.点睛:本题主要考查了独立性检验的基础知识的应用,其中根据题设条件得到男女生的人数,得出22⨯的列联表,利用公式准确计算是解答的关键,着重考查了分析问题和解答问题的能力.9.C解析:C 【详解】由题意可知16,28,20,8a b c d ====,44,28,36,36a b c d a c c d +=+=+=+=,72n a b c d =+++=,代入公式()()()()()22n ad bc K a b c d a c b d -=++++得()227216828208.4244283636K ⨯⨯-⨯=≈⨯⨯⨯,由于28.427.879K ≈>,我们就有0099.5的把握认为性别和读营养说明之间有关系,即性别和读营养说明之间有0099.5的可能是有关系的,故选C .10.C解析:C 【解析】对于①,线性回归方程 ˆˆˆybx a =+必过点)x y (,,满足回归直线的性质,所以①正确;对于②,在回归方程ˆ35y x =-中,当变量x 增加一个单位时,y 平均减少5个单位,不是增加5个单位;所以②不正确;对于③,在回归分析中,相关指数2R 为0.80的模型比相关指数2R 为0.98的模型拟合的效果要好,该判断恰好相反;所以③不正确;对于④,在回归直线0.58ˆy x =-中,变量2x =时,变量y 的值一定是-7.不是一定为7,而是可能是7,也可能在7附近,所以④不正确;故选C.11.D解析:D 【解析】 试题由题根据二列联表得出;2K=()21051030204555503075⨯⨯-⨯⨯⨯⨯≈6.109,对应参考值得 2 5.024K >,则有10.0250.975-=,即有97.5%的把握认为文化程度与月收入有关系。
(压轴题)高中数学高中数学选修2-3第三章《统计案例》测试题(含答案解析)(1)
一、选择题1.假设有两个分类变量X 和Y 的22⨯列联表为:对同一样本,以下数据能说明X 与Y 有关系的可能性最大的一组为参考公式:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.A .5,35b d ==B .15,25b d ==C .20,20b d ==D .30,10b d ==2.已知x 与y 之间的几组数据如下表: x 1 2 4 5 y 0 2 3 5假设根据上表数据所得线性回归直线方程y=bx+a,若某同学根据上表中的前两组数据(1,0)和(2,2),求得的直线方程为y=b'x+a',则以下结论正确的是( ) A .b>b',a>a' B .b<b',a<a' C .b>b',a<a' D .b<b',a>a'3.经过对K 2的统计量的研究,得到了若干个观测值,当K 2≈6.706时,我们认为两分类变量A 、B ( )A .有67.06%的把握认为A 与B 有关系 B .有99%的把握认为A 与B 有关系C .有0.010的把握认为A 与B 有关系D .没有充分理由说明A 与B 有关系 4.有如下几个结论: ①相关指数R 2越大,说明残差平方和越小,模型的拟合效果越好; ②回归直线方程:y bx a =+,一定过样本点的中心:(,)x y ③残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适; ④在独立性检验中,若公式()()()()()22n ad bc K a b c d a c b d -=++++,中的|ad-bc|的值越大,说明“两个分类变量有关系”的可能性越强.其中正确结论的个数有( )个. A .1B .2C .3D .45.下列判断错误的是A .若随机变量ξ服从正态分布()()21,,30.72N P σξ≤=,则()10.28P ξ≤-=;B .若n 组数据()()()1122,,,,...,,n n x y x y x y 的散点都在1y x =-+上,则相关系数1r =-;C .若随机变量ξ服从二项分布: 15,5B ξ⎛⎫~ ⎪⎝⎭, 则()1E ξ=; D .am bm >是a b >的充分不必要条件;6.已知某种商品的广告费支出x (单位:万元)与销售额y (单位:万元)之间有如下对应数据:x 2 4 5 6 8 y3040506070根据上表可得回归方程y bx a =+,计算得7b =,则当投入10万元广告费时,销售额的预报值为 A .75万元 B .85万元 C .99万元D .105万元7.下列说法中,不正确的是A .两个变量的任何一组观测值都能得到线性回归方程B .在平面直角坐标系中,用描点的方法得到表示两个变量的关系的图象叫做散点图C .线性回归方程反映了两个变量所具备的线性相关关系D .线性相关关系可分为正相关和负相关8.为考察数学成绩与物理成绩的关系,在高二随机抽取了300名学生,得到下面的列联表:数学85~100分 数学85分以下 总计 物理85~100分 37 85 122 物理85分以下 35 143 178 总计72228300现判断数学成绩与物理成绩有关系,则犯错误的概率不超过 ( ) A .0.005 B .0.01C .0.02D .0.059.在调查中发现480名男人中有38名患有色盲,520名女人中有6名患有色盲.下列说法正确的是( )A .男、女人患色盲的频率分别为0.038,0.006B .男、女人患色盲的概率分别为,C .男人中患色盲的比例比女人中患色盲的比例大,患色盲与性别是有关的D .调查人数太少,不能说明色盲与性别有关10.已知,x y 的取值如下表:( )x0 1, 2 3 4 y11.33.25.68.9若依据表中数据所画的散点图中,所有样本点()(,)1,2,3,4,5i i x y i =都在曲线212y x a =+附近波动,则a =( ) A .1B .12C .13D .12-11.已知变量x ,y 的一组观测数据如表所示: x 3 4 5 6 7 y4.02.5-0.50.5-2.0据此得到的回归方程为y bx a =+,若a =7.9,则x 每增加1个单位,y 的预测值就( ) A .增加1.4个单位 B .减少1.2个单位C .增加1.2个单位D .减少1.4个单位12.下列说法:①分类变量A 与B 的随机变量2K 越大,说明“A 与B 有关系”的可信度越大.②以模型kx y ce =去拟合一组数据时,为了求出回归方程,设ln z y =,将其变换后得到线性方程0.34z x =+,则,c k 的值分别是4e 和0.3.③根据具有线性相关关系的两个变量的统计数据所得的回归直线方程为y a bx =+中,2,1,3b x y ===,则1a =.④如果两个变量x 与y 之间不存在着线性关系,那么根据它们的一组数据()(,1,2,,)i i x y i n =不能写出一个线性方程正确的个数是( )A .1B .2C .3D .4二、填空题13.x ,y 的取值如下表: x-2-1.5-1-0.50.51y 0.26 0.35 0.51 0.71 1.1 1.41 2.05则x ,y 之间的关系可选用函数___进行拟合.14.下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②设有一个回归方程=3-5x ,变量x 增加一个单位时,y 平均增加5个单位;③线性回归方程=x +必过(,);④曲线上的点与该点的坐标之间具有相关关系;⑤在一个2×2列联表中,由计算得K 2=13.079,则其两个变量之间有关系的可能性是90%.其中错误的个数是________. 15.教材上一例问题如下:一只红铃虫的产卵数y 和温度x 有关,现收集了7组观测数据如下表,试建立y 与x 之间的回归方程. 温度 x /℃ 21 23 25 27 29 32 35 产卵数y /个711212466115325某同学利用图形计算器研究它时,先作出散点图(如图所示),发现两个变量不呈线性相关关系. 根据已有的函数知识,发现样本点分布在某一条指数型曲线21c xy c e =的附近(1c 和2c 是待定的参数),于是进行了如下的计算:根据以上计算结果,可以得到红铃虫的产卵数y 对温度x 的回归方程为__________.(精确到0.0001) (提示:21c xy c e =利用代换可转化为线性关系) 16.给出下列命题:①线性相关系数r 越大,两个变量的线性相关性越强;反之,线性相关性越弱;②由变量x 和y 的数据得到其回归直线方程:l ˆybx a =+,则l 一定经过点(),x y P ; ③从匀速传递的产品生产流水线上,质检员每10分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;④在回归分析模型中,残差平方和越小,说明模型的拟合效果越好;⑤在回归直线方程0.110ˆyx =+中,当解释变量x 每增加一个单位时,预报变量ˆy 增加0.1个单位,其中真命题的序号是___________.17.以下四个命题中:①从匀速传递的产品生产流水线上,质检员每10分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量的线性相关性越强,相关系数的绝对值越接近于1; ③某项测量结果服从正太态布,则; ④对于两个分类变量和的随机变量的观测值来说,越小,判断“与有关系”的把握程度越大.以上命题中其中真命题的个数为___________.18.在吸烟与患肺病这两个分类变量的计算中,“若2x 的观测值为6.635,我们有99%的把握认为吸烟与患肺病有关系”这句话的意思: ①是指“在100个吸烟的人中,必有99个人患肺病 ②是指“有1%的可能性认为推理出现错误”; ③是指“某人吸烟,那么他有99%的可能性患有肺病”; ④是指“某人吸烟,如果他患有肺病,那么99%是因为吸烟”. 其中正确的解释是______.19.一个三位自然数百位,十位,个位上的数字依次为a ,b ,c ,当且仅当有两个数字的和等于第三个数字时称为“有缘数”(如213,134等),若{},,1234a b c ∈,,,,且a ,b ,c 互不相同,则这个三位数为”有缘数”的概率是__________. 20.下列说法:①线性回归方程y bx a =+必过(),x y ;②命题“21,34x x ∀≥+≥”的否定是“21,34x x ∃<+<” ③相关系数r 越小,表明两个变量相关性越弱;④在一个22⨯列联表中,由计算得28.079K =,则有99%的把握认为这两个变量间有关系;其中正确..的说法是__________.(把你认为正确的结论都写在横线上) 本题可参考独立性检验临界值表:三、解答题21.今年疫情期间,许多老师进行抖音直播上课某校团委为了解学生喜欢抖音上课是否与性别有关,从高三年级中随机抽取30名学生进行了问卷调查,得到如下列联表:男生 女生 合计 喜欢抖音上课 10不喜欢抖音上课8合计 30已知在这30人中随机抽取1人抽到喜欢抖音上课的学生的概率是815. (1)请将上面的列联表补充完整,并据此资料分析能否有95%的把握认为喜欢抖音上课与性别有关?(2)若从这30人中的女生中随机抽取2人,记喜欢抖音上课的人数为X ,求X 的分布列、数学期望. 附临界值表:()20P K k ≥0.10 0.05 0.010 0.005 0k2.7063.8416.637.879参考公式:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.22.某校从高三年级的男女生中各随机抽取了100人的体育测试成绩(以下称体测成绩,单位:分),数据都落在[)60100,内,其统计数据如表所示(其中不低于80分的学生为优秀).(1)请根据如表数据完成22⨯列联表,并通过计算判断,是否有95%的把握认为体测成绩与性别有关?(2)视频率为概率,在全校的高三学生中任取3人,记取出的3人中优秀的人数为X ,求X 的分布列和数学期望.附:()()()()()22n ad bc K a b c d a c b d -=++++,n a b c d =+++23.支付宝和微信支付是目前市场占有率较高的支付方式,某第三方调研机构对使用这两种支付方式的人数作了对比,从全国随机抽取了100个地区作为研究样本,计算了各个地区样本的使用人数,其频率分布直方图如下,(1)记A表示事件“微信支付人数低于50千人”,估计A的概率;(2)填写下面2╳2列联表,并根据2╳2列联表判断是否有99%的把握认为支付人数与支付方式有关;支付人数<50千支付人数≥50千人总计人微信支付 支付宝支付 总计附:2()P K k ≥0.050 0.010 0.001 k3.8416.63510.828()()()()()22n ad bc K a b c d a c b d -=++++.24.2020突如其来的疫情让我们经历了最漫长、最特殊的一个假期,教育行政部门部署了“停课不停学”的行动,全力帮助学生在线学习.复课后某校进行了摸底考试,某数学教师为了调查高二学生这次摸底考试的数学成绩与每天在线学习数学的时长之间的相关关系,对在校高二学生随机抽取45名进行调查,了解到其中有25人每天在线学习数学的时长不超过1小时,并得到如下的等高条形图:(1)根据等高条形图填写下面22⨯列联表,并根据列联表判断能否在犯错误的概率不超过0.05的前提下认为“高二学生的这次摸底考试数学成绩与其每天在线学习数学的时长有关”;数学成绩不超过120分 数学成绩超过120分 总计 每天在线学习数学不超过1小时 25每天在线学习数学超过1小时总计45(2)从被抽查的,且这次数学成绩超过120分的学生中,再随机抽取3人,求抽取的3人中每天在线学习数学的时长超过1小时的人数ξ的分布列与数学期望. 附临界值表()20P K k ≥0.050 0.010 0.001 0k3.8416.63510.828参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.25.某单位组织开展“学习强国”的学习活动,活动第一周甲、乙两个部门员工的学习情况统计如下:学习活跃的员工人数 学习不活跃的员工人数甲 18 12 乙328(1)根据表中数据判断能否有95%的把握认为员工学习是否活跃与部门有关; (2)活动第二周,单位为检查学习情况,从乙部门随机抽取2人,发现这两人学习都不活跃,能否认为乙部门第二周学习的活跃率比第一周降低了?说明理由.参考公式:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.参考数据:2(0.1) 2.706P K ≥=,2(0.05) 3.841P K ≥=,2(0.01) 6.635P K ≥=. 26.根据国家统计局数据,1999年至2019年我国进出口贸易总额从3万亿元跃升至31.6万亿元,中国在国际市场上的贸易份额越来越大对外贸易在国民经济中的作用日益突出.将年份1999,2004,2009,2014,2019分别用1,2,3,4,5代替,并表示为t ,y 表示全国进出口贸易总额.(1)根据以上统计数据及图表,给出了下列两个方案,请解决方案1中的问题. 方案1:用y bt a =+作为全国进出口贸易总额y 关于t 的回归方程,根据以下参考数据,求出y 关于t 的回归方程,并求相关指数21R .方案2:用dt y ce =作为全国进出口贸易总额y 关于t 的回归方程,求得回归方程0.57212.3259x y e =,相关指数22R .(2)通过对比(1)中两个方案的相关指数,你认为哪个方案中的回归方程更合适,并利用此回归方程预测2020年全国进出口贸易总额. 参考数据:①0.140.340.66 1.86 2.048.192++++=②222220.140.34 1.86 2.04 2.1412.336++++=③8.1920.0147555.792≈④12.3360.0222555.792≈参考公式:线性回归方程中的斜率和截距的最小二乘法估计公式分别为:()()()121nii i nii xx y yb xx==--=-∑∑,a y bx =-,相关指数()()221211ni ii n ii y y R yy==-=--∑∑.【参考答案】***试卷处理标记,请不要删除一、选择题 1.D 解析:D 【解析】 【分析】 根据公式()()()()()22n ad bc K a b c d a c b d -=++++,分别利用4个选项中所给数据求出2K 的值,比较所求值的大小即可得结果. 【详解】选项A :22160(535155)3204010502K ⨯⨯-⨯==⨯⨯⨯,选项B :22260(5251515)152040204016K ⨯⨯-⨯==⨯⨯⨯,选项C :22360(5201520)24204025357K ⨯⨯-⨯==⨯⨯⨯,选项D :22460(5101530)96204035257K ⨯⨯-⨯==⨯⨯⨯,可得222431K K K >>22K >,所以由选项D 中的数据得到的2K 值最大,说明X 与Y 有关系的可能性最大,故选D . 【点睛】本题主考查独立性检验的基本性质,意在考查对基本概念的理解与应用,属于基础题.解答独立性检验问题时,要注意应用2 K 越大两个变量有关的可能性越大这一性质.2.D解析:D 【解析】 【分析】先根据()()1,0,2,2求得直线y b x a ='+'的方程.然后计算出回归直线方程y bx a =+,由此比较大小,得出正确的结论. 【详解】由于直线y b x a ='+'过()()1,0,2,2,将两点坐标代入直线方程得022b a b a +=⎧⎨+=''''⎩,解得2,2b a ''==-.124534x +++==,02352.54y +++==,1122334414122542x y x y x y x y +++=+++=.2222123414162546x x x x +++=+++=,故24243 2.54230121.24643463610b -⨯⨯-====-⨯-, 2.5 1.23 2.5 3.6 1.1a =-⨯=-=-.所以,a a b b >'<',故选D.【点睛】本小题主要考查利用直线上的两点坐标求直线方程的方法,考查回归直线方程的计算,属于中档题.3.B解析:B 【分析】根据所给的观测值,同临界值表中的临界值进行比较,根据P (K 2>3.841)=0.05,得到我们有1-0.05=95%的把握认为A 与B 有关系. 【详解】 依据下表:2 6.635K > , 2 6.6350.01P K =(>)∴我们在错误的概率不超过0.01的前提下有99%的把握认为A 与B 有关系, 故选B . 【点睛】本题考查独立性检验的应用,本题解题的关键是正确理解临界值对应的概率的意义,本题不用运算只要理解概率的意义即可.4.D解析:D 【分析】根据相关指数定义、残差平方和含义可得①为真,根据回归直线方程特征可得②为真,根据残差点含义可得③为真,根据卡方含义可得④为真. 【详解】相关指数R 2越大,则残差平方和越小,模型的拟合效果越好;回归直线方程:ˆy bx a =+,一定过点() ,x y ;若残差点比较均匀地落在水平的带状区域中,则选用的模型比较合适; 在独立性检验中,若公式()()()()()22n ad bc K a b c d a c b d -=++++,中的|ad-bc|的值越大,则2K 越大, “两个分类变量有关系”的可能性越强.选D. 【点睛】相关指数R 2越大,残差平方和越小,残差点比较均匀地落在水平的带状区域,则模型的拟合效果越好;在独立性检验中,若2 K 越大,则两个变量有关系越强;回归直线方程:ˆy bx a =+,一定过点() ,x y .5.D解析:D 【解析】分析:根据正态分布的对称性求出()1P ξ≤-的值,判断A 正确; 根据线性相关关系与相关系数的定义,判断B 正确; 根据二项分布的均值计算公式求出()E ξ的值,判断C 正确; 判断充分性和必要性是否成立,得出D 错误.详解:对于A ,随机变量ξ服从正态分布()21,N σ,∴曲线关于1ξ=对称,131310.720.28PP P ξξξ∴≤-=≥=-≤=-=()()(),A 正确;对于B ,若n 组数据()()()1122,,,,...,,n n x y x y x y 的散点都在1y x =-+上, 则x y ,成负相关,且相关关系最强,此时相关系数1r =-,B 正确;对于C ,若随机变量ξ服从二项分布: 15,5B ξ⎛⎫~ ⎪⎝⎭,则1515E(),ξ=⨯= C 正确;对于D ,am >bm 时,a >b 不一定成立,即充分性不成立,a b am bm >时,> 不一定成立,即必要性不成立,是既不充分也不必要条件,D 错误. 故选:D .点睛:本题考查了命题真假的判断问题,是综合题.6.B解析:B 【解析】分析:根据表中数据求得样本中心(,)x y ,代入回归方程ˆ7ˆyx a =+后求得ˆa ,然后再求当10x =的函数值即可. 详解:由题意得11(24568)5,(3040506070)5055x y =++++==++++=, ∴样本中心为(5,50).∵回归直线ˆ7ˆyx a =+过样本中心(5,50), ∴ˆ5075a=⨯+,解得ˆ15a =, ∴回归直线方程为ˆ715yx =+. 当10x =时,710158ˆ5y=⨯+=, 故当投入10万元广告费时,销售额的预报值为85万元. 故选B .点睛:本题考查回归直线过样本中心这一结论和平均数的计算,考查学生的运算能力,属容易题.7.A解析:A 【解析】要得到线性回归方程应至少有两个变量的两组观测值,因此A 不正确.根据散点图、线性回归方程、线性相关关系的概念可得B ,C ,D 都正确.故选A .8.D解析:D 【解析】因为K 2的观测值k=2300(371433585)12217872228⨯-⨯⨯⨯⨯≈4.514>3.841, 所以在犯错误的概率不超过0.05的前提下认为数学成绩与物理成绩有关系. 选D.9.C解析:C 【解析】男人中患色盲的比例为,要比女人中患色盲的比例大,其差值为,差值较大,所以认为患色盲与性别是有关的.考点:独立性检验.10.A解析:A 【解析】 设2t x = ,则11(014916)6,(1 1.3 3.2 5.68.9)455t y =++++==++++=,所以点(6,4)在直线12y t a =+上,求出1a =,选A. 点睛:本题主要考查了散点图,属于基础题.样本点的中心(),x y 一定在直线回归直线上,本题关键是将原曲线变形为12y t a =+,将点(6,4)代入,求出值. 11.D解析:D 【解析】由表格得 5x =, 0.9y =,∵回归直线方程为7ˆ9ˆ.y bx=+,过样本中心, ∴57.90.9b +=,即75b =-,则方程为77.95ˆyx =-+,则x 每增加1个单位,y 的预测值就减少1.4个单位,故选D.12.C解析:C 【解析】①分类变量A 与B 的随机变量2K 越大,说明“A 与B 有关系”的可信度越大,正确; ②∵kx y ce =,∴两边取对数,可得lny ln =(kx ce )kx lnc lnce lnc kx =+=+, 令z lny =,可得z lnc kx =+, ∵0.34z x =+, ∴40.3lnc k ==, ∴4c e =.即②正确;③根据具有线性相关关系的两个变量的统计数据所得的回归直线方程为y =a +bx 中,2,1,3b x y ===,则a =1,正确。
课件4:3.1 独立性检验
150 180
合计 50
310 360
由公式计算得χ2=3605×0×203×101×501-801×601×80302≈2.323.
因为2.323<3.841,因此我们没有理由说两颗骰子出现2点相
关.
反思与感悟
1.(1)问解答时也可以根据古典概型的方法求解. 2.相关关系的判定主要依据 χ2 的计算结果,运算时要细致 确保无误.
没有找到矛盾, 不能对A下任 何结论,即反 证法不成立
根据随机变量χ2的含义,可以通 过概率P(χ2≥X0)的大小来评价该 假设不合理的程度有多大,从而
得出“两个分类变量有关系”这 一结论成立的可信程度有多大
当堂检测
1.以下关于独立性检验的说法中,错误的是( ) A.独立性检验依据小概率原理 B.独立性检验得到的结论一定正确 C.样本不同,独立性检验的结论可能有差异 D.独立性检验不是判断两分类变量是否相关的唯一方法
解析 独立性检验得到的结论不一定正确,如我们得出有 90%的把握认为 A 与 B 有关,只是说这种判断的正确性为 90%, 具体问题中 A 与 B 可能有关,也可能无关.
答案 B
2.经过对χ2统计量分布的研究,已经得到了两个临界值: 3.841与6.635.下列说法正确的是( )
A.当根据具体的数据算出的χ2<3.841时,有95%的把握说 事件A与B有关
第三章 统计案例
3.1 独立性检验
思考
山东省 2011 年大力推行素质教育,增加了高中生的课外活 动时间,某校调查了学生的课外活动方式,结果整理成下表:
男生 女生 合计
体育 210 60 270
文娱 230 290 520
合计 440 350 790
统计案例之独立性检验
统计案例之独立性检验班级姓名学号参考公式:,其中.1.在中学生综合素质评价某个维度的测评中,分优秀、合格、尚待改进三个等级进行学生互评.某校高一年级有男生500人,女生400人,为了了解性别对该维度测评结果的影响,采用分层抽样方法从高一年级抽取了45名学生的测评结果,并作出频数统计表如下:表一:男生表二:女生(1)从表二的非优秀学生中随机抽取2人交谈,求所选2人中恰有1人测评等级为合格的概率;(2)由表中统计数据填写下面的列联表,并判断是否有90%的把握认为“测评结果优秀与性别有关”.2.东亚运动会将于2013年10月6日在天津举行.为了搞好接待工作,组委会打算学习北京奥运会招募大量志愿者的经验,在某学院招募了16名男志愿者和14名女志愿者,调查发现,男女志愿者中分别有10人和6人喜爱运动,其余人不喜欢运动.(2)根据列联表的独立性检验,能否在犯错误的概率不超过0.10的前提下认为性别与喜爱运动有关?(3)如果从喜欢运动的女志愿者中(其中恰有4人会外语),抽取2名负责翻译工作,那么抽出的志愿者中至少有1人能胜任翻译工作的概率是多少?3.某中学拟在高一下学期开设游泳选修课,为了了解高一学生喜欢游泳是否与性别有关,现从高一学生中抽取人做调查,得到如下列联表:已知在这人中随机抽取一人抽到喜欢游泳的学生的概率为,(Ⅰ)请将上述列联表补充完整,并判断是否有%的把握认为喜欢游泳与性别有关?并说明你的理由;(Ⅱ)针对问卷调查的名学生,学校决定从喜欢游泳的人中按分层抽样的方法随机抽取人成立游泳科普知识宣传组,并在这人中任选两人作为宣传组的组长,求这两人中至少有一名女生的概率,4.某学校高三年级有学生1 000名,经调查,其中750名同学经常参加体育锻炼(称为A 类同学),另外250名同学不经常参加体育锻炼(称为B类同学),现用分层抽样方法(按A 类、B类分两层)从该年级的学生中共抽查100名同学,如果以身高达165 cm作为达标的标(1)完成上表;5.某校进行文科、理科数学成绩对比,某次考试后,各随机抽取100名同学的数学考试成绩进行统计,其频率分布表如下.(Ⅰ)根据数学成绩的频率分布表,求理科数学成绩的中位数的估计值;(Ⅱ)请填写下面的列联表,并根据列联表判断是否有90%的把握认为数学成绩与文理科有关:(Ⅲ)设文理科数学成绩相互独立,记表示事件“文科、理科数学成绩都大于等于120分”,估计的概率.答案:1.(1)设从高一年级男生中抽出人,则,,则从女生中抽取20人,所以,.表二中非优秀学生共5人,记测评等级为合格的3人为,,,尚待改进的2人为,,则从这5人中任选2人的所有可能结果为,,,,,,,,,,共10种,设事件表示“从表二的非优秀学生中随机选取2人,恰有1人测评等级为合格”,则的结果为,,,,,,共6种,所以,即所求概率为.(2)列联表如下:因为,,而,所以没有90%的把握认为“测评结果优秀与性别有关”.(2)根据已知数据可求得:K2=≈1.157 5<2.706,因此,在犯错误的概率不超过0.10的前提下不能判断喜爱运动与性别有关.(3)喜欢运动的女志愿者有6人,设喜欢运动的女志愿者分别为A,B,C,D,E,F,其中A,B,C,D会外语,则从这6人中任取2人,共15种取法.其中两人都不会外语的只有EF一种取法.故抽出的志愿者之中至少有1人能胜任翻译工作的概率是P=1-=.3.5.。
(必考题)高中数学选修1-2第一章《统计案例》检测(答案解析)(1)
一、选择题1.为了提升全民身体素质,学校十分重视学生体育锻炼.某校篮球运动员进行投篮练习,若他前一球投进则后一球投进的概率为34,若他前一球投不进则后一球投进的概率为14.若他第1球投进的概率为34,则他第3球投进的概率为( ) A .34B .58C .116D .9162.甲、乙两人进行乒乓球比赛,假设每局比赛甲胜的概率是0.6,乙胜的概率是0.4.那么采用5局3胜制还是7局4胜制对乙更有利?( ) A .5局3胜制B .7局4胜制C .都一样D .说不清楚3.某研究性学习小组调查研究学生玩手机对学习的影响,部分统计数据如表经计算2K 的值,则有( )的把握认为玩手机对学习有影响. A .95%B .99%C .99.5%D .99.9%4.袋中装有10个形状大小均相同的小球,其中有6个红球和4个白球.从中不放回地依次摸出2个球,记事件A =“第一次摸出的是红球”,事件B =“第二次摸出的是白球”,则(|)P B A =( )A .25B .415C .49D .595.某射手射击一次命中的概率为0.8,连续两次射击均命中的概率是0.6,已知该射击手某次射中,则随后一次射中的概率是( ) A .34B .45C .35D .7106.已知12P(B|A)=,P(A)=35,则()P AB 等于( ) A .56B .910 C .215D .1157.甲罐中有5个红球,2个白球和3个黑球,乙罐中有6个红球,2个白球和2个黑球,先从甲罐中随机取出一个球放入乙罐,分别以1A ,2A ,3A 表示由甲罐取出的球是红球、白球和黑球的事件,再从乙罐中随机取出一个球,以B 表示由乙罐取出的球是红球的事件,下列结论中不正确...的是( ) A .事件B 与事件1A 不相互独立 B .1A 、2A 、3A 是两两互斥的事件 C .17(|)11P B A =D .3()5P B =8.下列说法中正确的是( )A .设随机变量~(10,0.01)X N ,则1(10)2P X >= B .线性回归直线不一定过样本中心点(,)x yC .若两个随机变量的线性相关性越强,则相关系数r 的值越接近于1D .先把高三年级的2000名学生编号:1到2000,再从编号为1到50的50名学生中随机抽取1名学生,其编号为m ,然后抽取编号为50m +,100m +,150m +,……的学生,这样的抽样方法是分层抽样9.若对于变量x 的取值为3,4,5,6,7时,变量y 对应的值依次分别为4.0,2.5,-0.5,-1,-2;若对于变量u 的取值为1,2,3,4时,变量v 对应的值依次分别为2,3,4,6,则变量x 和y ,变量u 和v 的相关关系是( ) A .变量x 和y 是正相关,变量u 和v 是正相关 B .变量x 和y 是正相关,变量u 和v 是负相关 C .变量x 和y 是负相关,变量u 和v 是负相关 D .变量x 和y 是负相关,变量u 和v 是正相关 10.在一次独立性检验中,得出列表如下:且最后发现,两个分类变量A 和B 没有任何关系,则a 的可能值是( ) A .720B .360C .180D .9011.下列有关结论正确的个数为( )①小赵、小钱、小孙、小李到4个景点旅游,每人只去一个景点,设事件A =“4个人去的景点不相同”,事件B =“小赵独自去一个景点”,则()2|9P A B =; ②设,a b ∈R ,则“22log log a b >”是“21a b ->的充分不必要条件;③设随机变量ξ服从正态分布(),7N μ,若()()24P P ξξ<=>,则μ与D ξ的值分别为3,7D μξ==. A .0B .1C .2D .312.通过随机询问72名不同性别的学生在购买食物时是否看营养说明,得到如下列联表:女 男 总计 读营养说明 16 28 44 不读营养说明 20 8 28 总计363672参考公式:22()()()()()n ad bc K a b c d a c b d -=++++20()P K k ≥ 0.100.05 0.025 0.010 0.005 0.001 0k 2.7063.8415.0246.6357.87910.828则根据以上数据:A .能够以99.5%的把握认为性别与读营养说明之间无关系;B .能够以99.9%的把握认为性别与读营养说明之间无关系;C .能够以99.5%的把握认为性别与读营养说明之间有关系;D .能够以99.9%的把握认为性别与读营养说明之间有关系;二、填空题13.甲、乙两名同学参加一项射击比赛游戏,其中任何一人每射击一次击中目标得2分,未击中目标得0分.若甲、乙两人射击的命中率分别为35和p,且甲、乙两人各射击一次得分之和为2的概率为920.假设甲、乙两人射击互不影响,则p 值为______. 14.对标有不同编号的6件正品和4件次品的产品进行检测,不放回地依次摸出2件.在第一次摸出正品的条件下,第二次也摸到正品的概率是_________.15.如图, A, B, C 表示3种开关,设在某段时间内它们正常工作的概率是分别是0.9 , 0.8 , 0.7 , 如果系统中至少有1个开关能正常工作,则该系统就能正常工作, 那么该系统正常工作的概率是____________16.关于变量,x y 的一组样本数据11()a b ,,22()a b ,,……,(),n n a b (2n ≥,12,,,n a a a ⋅⋅⋅不全相等)的散点图中,若所有样本点(,)i i a b (1,2,,i n =⋅⋅⋅)恰好都在直线21y x =-+上,则根据这组样本数据推断的变量,x y 的相关系数为_____________.17.用线性回归模型求得甲、乙、丙3组不同的数据对应的2R的值分别为0.81,0.98,0.63,其中__________(填甲、乙、丙中的一个)组数据的线性回归的效果最好.18.甲、乙两篮球运动员进行定点投篮,每人各投4个球,甲投篮命中的概率为12,乙投篮命中的概率为23,求甲至多命中2个且乙至少命中2个概率____.19.甲、乙两个小组各10名学生的英语口语测试成绩的茎叶图如图所示.现从这 20名学生中随机抽取一人,将“抽出的学生为甲小组学生”记为事件A;“抽出的学生英语口语测试成绩不低于85分”记为事件B.则P(A|B)的值是_____.20.近年来,新能源汽车技术不断推陈出新,新产品不断涌现,在汽车市场上影响力不断增大.动力蓄电池技术作为新能源汽车的核心技术,它的不断成熟也是推动新能源汽车发展的主要动力.假定现在市售的某款新能源汽车上,车载动力蓄电池充放电循环次数达到2000次的概率为85%,充放电循环次数达到2500次的概率为35%.若某用户的自用新能源汽车已经经过了2000次充电,那么他的车能够充电2500次的概率为______.三、解答题21.2020年1月24日,中国疾控中心成功分离中国首株新型冠状病毒毒种.6月19日,中国首个新冠mRNA疫苗获批启动临床试验,截至2020年10月20日,中国共计接种了约6万名受试者,为了研究年龄与疫苗的不良反应的统计关系,现从受试者中采取分层抽样抽取100名,其中大龄受试者有30人,舒张压偏高或偏低的有10人,年轻受试者有70人,舒张压正常的有60人.(1)根据已知条件完成下面的22⨯列联表,并据此资料你是否能够以99%的把握认为受试者的年龄与舒张压偏高或偏低有关?大龄受试者年轻受试者合计舒张压偏高或偏低舒张压正常合计6人,从抽出的6人中任取3人,设取出的大龄受试者人数为X,求X的分布列和数学期望.运算公式:()()()()()22n ad bcKa b c d a c b d-=++++,对照表:22.某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:甲厂:乙厂:(1)试分别估计两个分厂生产的零件的优质品率;(2)由以上统计数据填下面22⨯列联表,并问是否有0099的把握认为“两个分厂生产的零件的质量有差异”.附:22()()()()()n ad bcKa b c d a c b d-=++++23.为推动更多人阅读,联合国教科文组织确定每年的4月23日为“世界读书日”.设立目的是希望居住在世界各地的人,无论你是年老还是年轻,无论你是贫穷还是富裕,都能享受阅读的乐趣,都能尊重和感谢为人类文明做出过巨大贡献的思想大师们,都能保护知识产权.为了解不同年龄段居民的主要阅读方式,某校兴趣小组在全市随机调查了200名居民,经统计这200人中通过电子阅读与纸质阅读的人数之比为3:1,将这200人按年龄分组,其中统计通过电子阅读的居民得到的频率分布直方图如图所示. (1)求a 的值及通过电子阅读的居民的平均年龄;(2)把年龄在第123,,组的居民称为青少年组,年龄在第45,组的居民称为中老年组,若选出的200人中通过纸质阅读的中老年有30人,请完成上面22⨯列联表,则是否有97.5%的把握认为阅读方式与年龄有关? ()()()()()22n ad bc K a b a d b c c d -=++++()2P K k >0.15 0.100.050.025 0.010 0.005 0.001k2.0722.7063.8415.0246.6357.879 10.82824.微信是腾讯公司推出的一种手机通讯软件,它支持发送语音短信、视频、图片和文字,一经推出便风靡全国,甚至涌现出一批在微信的朋友圈内销售商品的人(被称为微商).为子调查每天微信用户使用微信的时间,某经销化妆品的微商在一广场随机采访男性、女性用户各50名,将男性、女性使用微信的时间分成5组:(]0,2,(]2,4,(]4,6,(]6,8,(]8,10分别加以统计,得到如图所示的频率分布直方图.(1)根据女性频率分布直方图估计女性使用微信的平均时间;(2)若每天再微信超过4个小时的用户列为“微信控”,否则称其为“非微信控”,请你根据已知条件完成22⨯的列联表,并判断是否有90%的把握认为“微信控”与“性别有关”? 25.2019年,中国的国内生产总值(GDP )已经达到约100万亿元人民币,位居世界第二,这其中实体经济的贡献功不可没实体经济组织一般按照市场化原则运行,某生产企业一种产品的成本由原料成本及非原料成本组成,每件产品的非原料成本y (元)与生产该产品的数量x (千件)有关,经统计得到如下数据:x1 2 3 4 5 6 7 8 y1126144.53530.5282524根据以上数据,绘制了如下的散点图.现考虑用反比例函数模型by a x=+和指数函数模型dx y ce =分别对两个变量的关系进行拟合.为此变换如下:令1xμ=,则y a b μ=+,即y 与μ满足线性关系;令ln νμ=,则ln c dx ν=+,即ν与x 也满足线性关系.这样就可以使用最小二乘法求得非线性的回归方程.已求得用指数函数模型拟合的回归方程为96.54dx y e =,ν与x 的相关系数10.94r =-,其他参考数据如表(其中1ln i i i iy x μν==).(1)求指数函数模型和反比例函数模型中y 关于x 的回归方程;(2)试计算y 与μ的相关系数2r ,并用相关系数判断:选择反比例函数和指数函数两个模型中的哪一个拟合效果更好(计算精确到0.01)?(3)根据(2)小题的选择结果,该企业采取订单生产模式(即根据订单数量进行生产,产品全部售出).根据市场调研数据,该产品单价定为100元时得到签订订单的情况如表:已知每件产品的原料成本为10元,试估算企业的利润是多少?(精确到1千元) 参考公式:对于一组数据()11,μν,()22,μν,⋅⋅⋅,(),n n μν,其回归直线ναβμ=+的斜率和截距的最小二乘估计分别为:1221ni i i nii n n μνμνβμμ==-=-∑∑,ανβμ=-,相关系数ni in r μνμν-=∑26.为更好地落实农民工工资保证金制度,南方某市劳动保障部门调查了2018年下半年该市100名农民工(其中技术工、非技术工各50名)的月工资,得到这100名农民工的月工资均在[]25,55(百元)内,且月工资收入在[45,50)(百元)内的人数为15,并根据调查结果画出如图所示的频率分布直方图:(1)求n 的值;(2)已知这100名农民工中月工资高于平均数的技术工有31名,非技术工有19名. ①完成如下所示22⨯列联表技术工 非技术工 总计 月工资不高于平均数 50 月工资高于平均数50 总计5050100②则能否在犯错误的概率不超过0.001的前提下认为是不是技术工与月工资是否高于平均数有关系?参考公式及数据:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.()20P K k ≥0.050.01 0.005 0.001 0k 3.8416.6357.87910.828【参考答案】***试卷处理标记,请不要删除一、选择题 1.D解析:D 【分析】分两种情况讨论:第2球投进和第2球投不进,利用独立事件的概率公式可得出所求事件的概率. 【详解】分以下两种情况讨论: (1)第2球投进,其概率为3311544448⨯+⨯=,第3球投进的概率为53158432⨯=; (2)第2球投不进,其概率为53188-=,第3球投进的概率为3138432⨯=. 综上所述:第3球投进的概率为1539323216+=,故选D. 【点睛】本题考查概率的求法,考查独立事件概率乘法公式的应用,同时也考查对立事件概率公式的应用,解题时要注意对事件进行分类讨论,考查运算求解能力,属于中等题.2.A解析:A 【分析】分别计算出乙在5局3胜制和7局4胜制情形下对应的概率,然后进行比较即可得出答案. 【详解】当采用5局3胜制时,乙可以3:0,3:1,3:2战胜甲,故乙获胜的概率为:322222340.4+0.40.60.40.40.60.40.3174C C ⨯⨯+⨯⨯≈;当采用7局4胜制时,乙可以4:0,4:1,4:2,4:3战胜甲,故乙获胜的概率为:4333323334560.4+0.40.60.40.40.60.4+0.40.60.40.2898C C C ⨯⨯+⨯⨯⨯⨯≈,显然采用5局3胜制对乙更有利,故选A. 【点睛】本题主要考查相互独立事件同时发生的概率,意在考查学生的计算能力和分析能力,难度中等.3.C解析:C 【解析】分析:利用公式求得观测值2K ,对照数表,即可得出正确的结论. 详解:根据列联表可得()223042168=1020101218K ⨯⨯-⨯=⨯⨯⨯,27.8791010.828K <=<,对照数表知,有99.5%的把握认为玩手机对学习有影响,故选C.点睛:本题考查了独立性检验的应用问题,是基础题目. 独立性检验的一般步骤:(1)根据样本数据制成22⨯列联表;(2)根据公式()()()()()22n ad bc K a b a d a c b d -=++++计算2K 的值;(3) 查表比较2K 与临界值的大小关系,作统计判断.4.C解析:C 【解析】分析:利用概率的计算公式,求解事件A 和事件A B 的概率,即可利用条件概率的计算公式,求解答案.详解:由题意,事件A =“第一次摸出的是红球”时,则63()105P A ==, 事件A =“第一次摸出的是红球”且事件B =“第二次摸出白球”时,则6412()10945P AB =⨯=, 所以()4(|)()9P AB P B A P A ==,故选C . 点睛:本题主要考查了条件概率的计算,其中熟记条件概率的计算公式和事件的概率是解答的关键,着重考查了分析问题和解答问题的能力,以及推理与计算能力.5.A解析:A 【解析】分析:某次射中,设随后一次射中的概率为p ,利用相互独立事件概率乘法公式能求出p 的值.详解:某次射中,设随后一次射中的概率为p ,∵某射击手射击一次命中的概率为0.8,连续两次均射中的概率是0.5,0.80.6p ,∴= 解得34p =.故选:A .点睛:本题考查概率的求法,涉及到相互独立事件概率乘法公式的合理运用,考查推理论证能力、运算求解能力、数据处理能力,考查化归与转化思想,是基础题.6.C解析:C 【解析】分析:根据条件概率的计算公式,即可求解答案. 详解:由题意,根据条件概率的计算公式()()|()P AB P B A P A =, 则()()()122|3515P AB P B A P A =⋅=⨯=,故选C. 点睛:本题主要考查了条件概率的计算公式的应用,其中熟记条件概率的计算公式是解答的关键,着重考查了推理与运算能力.7.D解析:D 【解析】分析:由题意1A ,2A ,3A是两两互斥事件,条件概率公式求出1(|)P B A ,()()()()123P B P A B P A B P A B =++,对照选项即可求出答案.详解:由题意1A ,2A ,3A是两两互斥事件, ()()()12351213,,10210510P A P A P A =====, ()()()111177211|1112P BA P B A P A ⨯===,()23|11P B A =,()33|11P B A =,而()()()()123P B P A B P A B P A B =++()()()()()()112233|||P A P B A P A P B A P A P B A =++1713332115111011=⨯+⨯+⨯ 511=. 所以D 不正确. 故选:D.点睛:本题考查相互独立事件,解题的关键是理解题设中的各个事件,且熟练掌握相互独立事件的概率简洁公式,条件概率的求法,本题较复杂,正确理解事件的内蕴是解题的关键.8.A解析:A 【解析】在A 中,设随机变量X 服从正态分布N (10,0.01),则由正态分布性质得1(10)2P X >=,故A 正确; 在B 中,线性回归直线一定过样本中心点(),x y ,故B 错误;在C 中,若两个随机变量的线性相关性越强,则相关系数r 的绝对值越接近于1,故C 错误;在D 中,先把高三年级的2000名学生编号:1到2000,再从编号为1到50的50名学生中随机抽取1名学生,其编号为m ,然后抽取编号为m+50,m+100,m+150…的学生,这样的抽样方法是系统抽样法,故D 错误. 故选:A9.D解析:D 【解析】变量x 增加,变量y 减少,所以变量x 和y 是负相关;变量u 增加,变量v 增加,所以变量u 和v 是正相关,因此选D.10.B解析:B 【解析】∵两个分类变量A 和B 没有任何关系,∴()()()()2259010090400 2.70219040090500a a K a a +-⨯=<⨯++,代入验证可知360a =满足,故选B.11.D解析:D 【解析】对于①,4344443273()()464432A PB P AB ⨯====,,所以()2()()9P AB P A B P B ==,故①正确;对于②,当22log log a b >,有0a b >>,而由21a b ->有a b >,因为0,0a b a b a b a b >>⇒>>≠>>> ,所以22log log a b >是21a b ->的充分不必要条件,故②正确;对于③,由已知,正态密度曲线的图象关于直线3ξ=对称,且27σ= 所以3,7D μξ==,故③正确.点睛:本题主要考查了条件概率,充分必要条件,正态分布等,属于难题.这几个知识点都是属于难点,容易做错.12.C解析:C 【解析】2272(1682028)=8.427.87944283636K ⨯⨯-⨯≈⨯⨯⨯>∴性别和读营养说明之间有99.5%的可能性. 本题选择C 选项.二、填空题13.【分析】根据甲乙两人各射击一次得分之和为2的概率为列方程解方程求得的值【详解】甲乙两人各射击一次得分之和为2可能是甲击中乙未击中或者乙击中甲未击中故解得故答案为:【点睛】本小题主要考查相互独立事件概解析:34【分析】根据甲、乙两人各射击一次得分之和为2的概率为920列方程,解方程求得p 的值. 【详解】甲、乙两人各射击一次得分之和为2,可能是甲击中乙未击中,或者乙击中甲未击中,故()339115520p p ⎛⎫⋅-+⋅-= ⎪⎝⎭,解得34p =. 故答案为:34【点睛】本小题主要考查相互独立事件概率计算,属于基础题.14.【解析】设第一次摸出正品为事件第二次摸出正品为事件则事件和事件相互独立在第一次摸出正品的条件下第二次也摸到正品的概率为:故答案为 解析:【解析】设“第一次摸出正品”为事件A ,“第二次摸出正品”为事件B , 则事件A 和事件B 相互独立,在第一次摸出正品的条件下,第二次也摸到正品的概率为:()()655109|6910P AB P B A P A ⨯===().故答案为5915.994【解析】由题意知本题是一个相互独立事件同时发生的概率种开关中至少有个开关能正常工作的对立事件是种开关都不能工作分别记开关能正常工作分别为事件故答案为解析:994 【解析】由题意知本题是一个相互独立事件同时发生的概率,,,A B C ,3种开关中至少有1 个开关能正常工作的对立事件是3种开关都不能工作,分别记,,A B C 开关能正常工作分别为事件123,,A A A ,()()1231,,10.10.20.30.994P E P A A A =-=-⨯⨯=, 故答案为0.994. 16.-【解析】所有样本点都在直线上说明这两个变量间完全负相关故其相关系数为-1故填-1解析:-1 【解析】所有样本点都在直线上,说明这两个变量间完全负相关,故其相关系数为-1,故填-1.17.乙【解析】线性回归模型中越接近1效果越好故乙效果最好解析:乙 【解析】线性回归模型中2R 越接近1,效果越好,故乙效果最好.18.【分析】甲至多命中2个且乙至少命中2个包含的两个事件是相互独立事件分别做出甲至多命中2个球的概率和乙至少命中两个球的概率根据相互独立事件的概率公式得到结果【详解】甲至多命中2个且乙至少命中2个包含的解析:1118【分析】甲至多命中2个且乙至少命中2个包含的两个事件是相互独立事件,分别做出甲至多命中2个球的概率和乙至少命中两个球的概率,根据相互独立事件的概率公式得到结果. 【详解】甲至多命中2个且乙至少命中2个包含的两个事件是互相独立事件, 设“甲至多命中2个球”为事件A ,“乙至少命中2个球”为事件B ,由题意()41322124411111112222216P A C C ⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫=+⨯+⨯= ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭, ()22342344212128333339P B C C ⎛⎫⎛⎫⎛⎫⎛⎫=⨯+⨯+= ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭⎝⎭, ∴甲至多命中2个球且乙至少命中2个球的概率为()()1181116918P A P B ⋅=⨯=,故答案为1118. 【点睛】本题考查独立重复试验,考查离散型随机变量,是一个综合题,解题时注意进球的个数对应的是乙所得的分数,注意分数与进球个数的对应.19.【解析】试题分析:抽出的学生英语口语测试成绩不低于85分的有9种其中抽出的学生为甲小组学生的事件有5种所以概率为考点:条件概率 解析:【解析】试题分析:抽出的学生英语口语测试成绩不低于85分的有9种,其中抽出的学生为甲小组学生”的事件有5种,所以概率为59. 考点:条件概率.20.【分析】记某用户的自用新能源汽车已经经过了2000次充电为事件A 他的车能够充电2500次为事件B 即求条件概率:由条件概率公式即得解【详解】记某用户的自用新能源汽车已经经过了2000次充电为事件A 他的解析:717【分析】记“某用户的自用新能源汽车已经经过了2000次充电”为事件A ,“他的车能够充电2500次”为事件B ,即求条件概率:(|)P B A ,由条件概率公式即得解. 【详解】记“某用户的自用新能源汽车已经经过了2000次充电”为事件A ,“他的车能够充电2500次”为事件B ,即求条件概率:()35%7(|)()85%17P A B P B A P A ===故答案为:717【点睛】本题考查了条件概率的应用,考查了学生概念理解,数学应用,数学运算的能力,属于基础题.三、解答题21.(1)没有99%的把握认为受试者的年龄与舒张压偏高或偏低有关;(2)分布列见解析,()32E X = 【分析】(1)根据题意列出列联表,再计算2 4.762 6.635K ≈<,故没有99%的把握认为受试者的年龄与舒张压偏高或偏低有关;(2)由分层抽样得抽得样本的大龄受试者有3人,年轻受试者有3人,X 的可能取值为0,1,2,3,再结合超几何分布求概率和期望即可.【详解】解:()122⨯列联表如下:()210010601020 4.762 6.63530702080K ⨯⨯-⨯∴=≈<⨯⨯⨯所以,没有99%的把握认为受试者的年龄与舒张压偏高或偏低有关.(2)由题意得,采用分层抽样抽取的6人中,大龄受试者有3人,年轻受试者有3人, 所以大龄受试者人数为X 的可能取值为0,1,2,3,所以()33361020C P X C ===,()2133369120C C P X C ===, ()1233369220C C P X C ===,()33361320C P X C ===,所以X 的分布列为:所以()0123202020202E X =⨯+⨯+⨯+⨯=. 【点睛】本题第二问解题的关键在于根据题意得抽取的6人中,大龄受试者有3人,年轻受试者有3人,进而根据超几何分布求概率分布列与数学期望,考查运算求解能力,是中档题.22.(1) 72% 64% (2) 有99%的把握认为“两个分厂生产的零件的质量有差异” 【解析】解:(1)甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计为360500=72%;乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率估计为320500=64%. (2)χ2=()1000360180320140500500680320⨯⨯-⨯⨯⨯⨯≈7.35>6.635,所以有99%的把握认为“两个分厂生产的零件的质量有差异”. 23.(1)0.035,41.5;(2)有. 【分析】(1)由频率分布直方图求出a 的值,再计算数据的平均值;(2)由题意填写列联表,计算观测值,对照临界值得出结论. 【详解】(1)由频率分布直方图可得:10×(0.01+0.015+a +0.03+0.01)=1, 解得a =0.035,所以通过电子阅读的居民的平均年龄为:20×10×0.01+30×10×0.015+40×10×0.035+50×10×0.03+60×10×0.01=41.5;(2)由题意200人中通过电子阅读与纸质阅读的人数之比为3:1, ∴纸质阅读的人数为20014⨯=50,其中中老年有30人,∴纸质阅读的青少年有20人,电子阅读的总人数为150,青少年人数为1500.10.150.35⨯++()=90,则中老年有60人, 得2×2列联表,计算()2200903060202006.061 5.024501501109033K ⨯-⨯==≈>⨯⨯⨯,所以有97.5%的把握认为认为阅读方式与年龄有关. 【点睛】本题考查了频率分布直方图与独立性检验的应用问题,考查了阅读理解的能力,是基础题.24.(1)4.76;(2)有90%的把握认为“微信控”与“性别”有关 【解析】 试题分析:(1)由频率直方图中各概率乘以各方块中点频率相加后即得;(2)从频率直方图中可计算出“微信控”和“非微信控”的男女生人数,再计算出2K 可得. 试题(1)女性平均使用微信的时间为:0.16×1+0.24×3+0.28×5+0.2×7+0.12×9=4.76. (2)2(0.04+a +0.14+2×0.12)=1,解得a =0.08. 由题设条件得列联表:所以K 2==≈2.941>2.706.所以有90%的把握认为“微信控”与“性别”有关.25.(1)指数模型回归方程为0.296.54x y e -=,反比例函数回归方程为10011y x=+;(2)20.99r ≈;用反比例函数模型拟合效果更好;(3)612(千元). 【分析】(1)由96.54dx y e =,得ln ln96.54 4.6y dx dx ν=+⇔=+,将 3.7ν=, 4.5x =代入可得指数模型回归方程.令1xμ=,则y b a μ=+,代入y ,求得b ,a ,可得反比例函数回归方程.(2)求得y 与u 的相关系数为2r ,由12r r <,可得结论. (3)设该企业的订单期望为S (千件),则109811011111123101122222S ⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫=⨯+⨯+⨯+⋅⋅⋅+⨯+⨯ ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭,可求得订单的期望,从而求得该企业的利润约. 【详解】解:(1)因为96.54dx y e =,所以ln ln96.54 4.6y dx dx ν=+⇔=+, 将 3.7ν=, 4.5x =代入上式,得0.2d =-,所以0.296.54x y e -=.令1xμ=,则y b a μ=+, 因为360458y ==,所以182218183.480.34451001.5380.1158ni ii i i u y u yb u u==-⋅-⨯⨯===-⨯-∑∑,则451000.3411a y b u =-⋅=-⨯=,所以11100y u =+, 所以y 关于x 的回归方程为10011y x=+. 综上,指数模型回归方程为0.296.54x y e -=,反比例函数回归方程为10011y x=+. (2)y 与u 的相关系数为812882222118610.9961.40.616185.588i ii i i i i u y u yr u u y y ===-⋅===≈⨯⎛⎫⎛⎫-- ⎪⎪⎝⎭⎝⎭∑∑∑,因为12r r <,所以用反比例函数模型拟合效果更好. (3)设该企业的订单期望为S (千件),则109811011111123101122222S ⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫=⨯+⨯+⨯+⋅⋅⋅+⨯+⨯ ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭, 令109811111123102222T ⎛⎫⎛⎫⎛⎫⎛⎫=⨯+⨯+⨯+⋅⋅⋅+⨯ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭⎝⎭①, 则111092111111*********T ⎛⎫⎛⎫⎛⎫⎛⎫=⨯+⨯+⨯+⋅⋅⋅+⨯ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭⎝⎭②, ②-①,得11109211111522222T ⎛⎫⎛⎫⎛⎫⎛⎫-=+++⋅⋅⋅+- ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭⎝⎭,化简得10192T ⎛⎫=+ ⎪⎝⎭,所以101391292256S ⎛⎫=+⨯=+ ⎪⎝⎭,所以该企业的利润约为:3310091009101161232562569256⎡⎤⎢⎥⎛⎫⎛⎫+⨯-+⨯++≈ ⎪ ⎪⎢⎥⎝⎭⎝⎭+⎢⎥⎣⎦(千元). 【点睛】本题考查线性回归方程的求得,相关系数的比较,以及运用数学期望求利润,属于中档题. 26.(1)0.05n =;(2)①列联表见解析;②不能在犯错误的概率不超过0.001的前提下,认为是不是技术工与月工资是否高于平均数有关 【分析】(1)根据频率分布直方图列方程组求得n 的值;(2)根据题意得到22⨯列联表,计算观测值,对照临界值表得出结论. 【详解】 (1)月工资收入在[45,50)(百元)内的人数为15月工资收入在[45,50)(百元)内的频率为:150.15100=; 由频率分布直方图得:(0.020.0420.01)50.151n +++⨯+=0.05n ∴=(2)①根据题意得到列联表:技术工 非技术工总计月工资不高于平均数193150月工资高于平均数3119 50总计 50 50 1002 5.7610.82850505050K ==<⨯⨯⨯ 不能在犯错误的概率不超过0.001的前提下,认为是不是技术工与月工资是否高于平均数有关.【点睛】本题主要考查了独立性检验和频率分布直方图的应用问题,也考查了计算能力及频率应用问题,是基础题.。
卡方检验公式卡方拟合优度检验卡方独立性检验的计算方法
卡方检验公式卡方拟合优度检验卡方独立性检验的计算方法卡方检验公式:卡方拟合优度检验和卡方独立性检验的计算方法卡方检验是一种常用的统计假设检验方法,用于判断实际观测值与理论期望值之间的差异是否显著。
在卡方检验中,常见的包括卡方拟合优度检验和卡方独立性检验两种类型。
本文将介绍这两种卡方检验的公式和计算方法。
一、卡方拟合优度检验卡方拟合优度检验用于检验观测值与理论期望值是否具有显著的差异。
它适用于当我们想要检验一组观测数据是否符合某种理论分布时使用。
假设我们有一个分类变量,有 k 个不同的类别,对于每个类别,我们希望计算出理论上的期望频数 Ei,并与实际观测频数 Oi 进行比较。
卡方检验的原假设(H0)是观测值与理论期望值没有差异,备择假设(H1)是观测值与理论期望值存在差异。
卡方拟合优度检验的卡方统计量计算公式如下:χ² = Σ(Oi - Ei)² / Ei其中,Oi 为观测频数,Ei 为理论期望频数。
以一个例子来说明卡方拟合优度检验的计算方法。
假设我们有一组观测数据,其中有4个类别,分别观测到的频数为120、150、130和100。
我们假设这些观测值符合某种理论分布,理论期望频数为125、135、128和112。
首先,我们需要计算出每个观测值的卡方值,然后将得到的卡方值相加,得到最终的卡方统计量。
下面是具体的计算过程:Observed (Oi) Expected (Ei) (Oi - Ei)² / Ei120 125 0.20150 135 1.67130 128 0.02100 112 1.57计算完每个类别的卡方值后,我们将它们相加得到最终的卡方统计量。
χ² = 0.20 + 1.67 + 0.02 + 1.57 = 3.46这个卡方统计量可以用来判断观测值与理论期望值之间的差异是否显著。
通过查阅卡方分布表,我们可以根据自由度和显著水平确定临界值,从而进行假设检验。
3.1独立性检验
n
n
同理可得:吸烟但未患病人数:n P( AB) n a b b d
n
n
不吸烟但患病人数: n P( AB) n c d a c
n
n
不吸烟且未患病人数:nຫໍສະໝຸດ P( AB) n c d b d
n
n
实际观测值
如果实际观测值与预 期估计值差异不“大”, 那么我们就可以认为 这些差异是由随机误 差造成的,即假设 H 0 不能被所给数据否定。 否则,应认为假设 H0 不能接受
将以上数据代入公式得:
2 11.8634,
吸烟
这个值是大还是小呢? 不吸烟
总计
患病 37 21 58
不患病 183 274 457
总计 220 295 515
统计学家估算出如下的概率: P( 2 6.635 ) 0.01
即在H0成立的情况下,2的值大于6.635的概率非常小,近似于0.01,即1%.
问题一:我们想要研究“吸烟与患呼吸道疾病的关系”时,需要研究 哪些量呢?
吸烟且患病的人数、不吸烟但患病的人数
为了研究这个问题,我们将是否吸烟与患病的数据用2×2列联表表示:
列联表:分类变量的汇总统计表(频数表)
一般地,假设有两个分类变量 X 和 Y,它们的取值分别为
{x1,x2}和{y1,y2},其样本频数表称为列联表 ,又称为 2×2 列联表,其形式为
(b n a b b d )2 (c n c d a c )2 (d n c d b d )2
n n
n n
nn
n a b bd
n cd a c
n cd bd
nn
nn
nn
化简得: 2 =
n(adb)c2
独立性检验
如果 A,B 无关,那么nn11与nn1+·nn+1 应 该很接近,nn12与nn1+·nn+2应该很 接近...
从而
χ (n11 _ n1+. nn+1)2
2=
n1+
.
n+1 n
+
(n12 _ n1+. nn+2)2
(n21 _ n2+. nn+1)2
n1+
.
n+2 n
+
n2+
.
n+1 n
+
( n22
事件A与B独立,有P(AB)=P(A)P(B) 成立。我们用H0表示上式,即H0: P(AB)=P(A) P(B)。并称之为统计假 设,当H0成立时,下面的三个式子也 成立:
P( AB)=P( A)P(B) P(A B)=P(A)P( B) P( A B)=P( A)P( B)
根据概率的统计定义,上面提 到的众多事件的概率都可以用相应 的频率来估计。
解:由公式得:
χ2 =
392 (39×167-29×157)2 68×324×196×196
≈1.780
因为1.780<3.841,我们没有 理由说“心脏搭桥手术”与“又 发生过心脏病”有关。
例3.某大型企业人力资源部为了 研究企业员工工作积极性和对待 企业改革态度的关系,随机抽取 了189名员工进行调查,所得的数 据如下表所示:
独立性检验
一、问题引入
警示:你快戒烟吧,否则一定 会患慢性气管炎的。
老年人患慢性气管炎与吸烟习 惯有没有关系呢?
二、案例分析
例1.为了探究患慢性气管炎与吸烟 是否有关,调查了339名50岁以上的 人,调查结果如下表所示:
高中数学第三章统计案例1独立性检验卡方检验素材苏教版
2χ检验(一)掌握内容1. 2χ检验的用途。
2. 四格表的2χ检验.(1) 四格表2χ检验公式的应用条件; (2) 不满足应用条件时的解决办法; (3) 配对四格表的2χ检验。
3. 行⨯列表的2χ检验. (二) 熟悉内容频数分布拟合优度的2χ检验. (三) 了解内容1.2χ分布的图形。
2.四格表的确切概率法。
(一) 2χ检验的用途2χ检验(Chi —square test )用途较广,主要用途如下:1.推断两个率及多个总体率或总体构成比之间有无差别 2.两种属性或两个变量之间有无关联性 3.频数分布的拟合优度检验 (二) 2χ检验的基本思想1.2χ检验的基本思想是以2χ值的大小来反映理论频数与实际频数的吻合程度。
在零假设0H (比如0H :21ππ=)成立的条件下,实际频数与理论频数相差不应该很大,即2χ值不应该很大,若实际计算出的2χ值较大,超过了设定的检验水准所对应的界值,则有理由怀疑0H 的真实性,从而拒绝0H ,接受H 1(比如1H :21ππ≠).2. 基本公式:()∑-=TT A 22χ,A 为实际频数(Actual Frequency ),T 为理论频数(Theoretical Frequency ).四格表2χ检验的专用公式正是由此公式推导出来的,用专用公式与用基本公式计算出的2χ值是一致的。
(三)率的抽样误差与可信区间 1.率的抽样误差与标准误样本率与总体率之间存在抽样误差,其度量方法:np )1(ππσ-=,π为总体率,或 (8—1)np p S p )1(-=,p为样本率;(8—2)2.总体率的可信区间当n 足够大,且p 和1—p 均不太小,p 的抽样分布逼近正态分布.总体率的可信区间:(ppS u p S u p ⨯+⨯-2/2/,αα)。
(8—3)(四)2χ检验的基本计算见表8-1。
表8—1 2χ检验的用途、假设的设立及基本计算公式资料形式 用途 0H 、1H 的设立与计算公式 自由度 四格表 ①独立资料两 样本率的比较②配对资料两样本率的比较0H :两总体率相等 1H :两总体率不等①专用公式))()()(()(22d b c a d c b a n bc ad ++++-=χ②当n ≥40但1≤T 〈5时,校正公式))()()(()2/(22d b c a d c b a n n bc ad ++++--=χ③配对设计cb c b +--=22)1(χ1 R ⨯C 表 ①多个样本率、 0H :多个总体率(构成比)相等 (R —1)构成比的比较②两个变量之间关联性分析(0H:两种属性间存在关联)1H:多个总体率(构成比)不全相等(H:两种属性间存在关联))1(22-=∑CRnnAnχ(C—1)频数分布表频数分布的拟合优度检验H:资料服从某已知的理论分布1H:资料不服从某已知的理论分布∑-TTA2)(据频数表的组数而定(五)四格表的确切概率法当四格表有理论数小于1或n〈40时,宜用四格表的确切概率法。
独立性检验OK
独立性检验1.独立性检验基本思想:(1)假设0H :患病与吸烟没有关系.(近似的判断方法:设na b c d=+++,如果0H 成立,则在吸烟的人中患病的比例与不吸烟的人中患病的比例应差不多,由此可得a c a bc d≈++,即()()0a c d c a b a d b c +≈+⇒-≈,因此,||a d b c -越小,患病与吸烟之间的关系越弱,否则,关系越强.) 设na b c d =+++,在假设0H 成立的条件下,可以通过求 “吸烟且患病”、“吸烟但未患病”、“不吸烟但患病”、“不吸烟且未患病”的概率(观测频率),将各种人群的估计人数用,,,,a b c d n表示出来.例如:“吸烟且患病”的估计人数为()a b a c n P A B n n n ++⨯≈⨯⨯;“吸烟但未患病” 的估计人数为()a b b dn P A B n n n ++⨯≈⨯⨯;“不吸烟但患病”的估计人数为()c d a cn P AB n n n ++⨯≈⨯⨯;“不吸烟且未患病”的估计人数为()c d b dn P A B n nn++⨯≈⨯⨯.如果实际观测值与假设求得的估计值相差不大,就可以认为所给数据(观测值)不能否定假设0H .否则,应认为假设0H 不能接受,即可作出与假设0H 相反的结论.(2)卡方统计量:为了消除样本对上式的影响,通常用卡方统计量(χ22()-=∑观测值预期值预期值)来进行估计.卡方χ2统计量公式:χ222a b a c a b b d a n b n n n n n a b a c a b b d n n n n n n++++⎛⎫⎛⎫-⨯⨯-⨯⨯ ⎪⎪⎝⎭⎝⎭=+++++⨯⨯⨯⨯22c d a c c d b d c n d n n n n n c d a c c d b d n n n nn n++++⎛⎫⎛⎫-⨯⨯-⨯⨯ ⎪⎪⎝⎭⎝⎭++++++⨯⨯⨯⨯()()()()()2n a d b c a b c d a c b d -=++++(其中na b c d=+++)由此若0H 成立,即患病与吸烟没有关系,则χ2的值应该很小.把37,183,21,274a b c d ====代入计算得χ211.8634=,统计学中有明确的结论,在0H 成立的情况下,随机事件“2 6.635χ≥”发生的概率约为0.01,即2( 6.635)0.01P χ≥≈,也就是说,在0H 成立的情况下,对统计量χ2进行多次观测,观测值超过6.635的频率约为0.01.由此,我们有99%的把握认为0H 不成立,即有99%的把握认为“患病与吸烟有关系”.像以上这种用2χ统计量研究吸烟与患呼吸道疾病是否有关等问题的方法称为独立性检验.2.独立性检验的一般步骤:一般地,对于两个研究对象Ⅰ和Ⅱ,Ⅰ有两类取值:类A 和类B (如吸烟与不吸烟),Ⅱ也有两类取值:类1和类2(如患呼吸道疾病与不患呼吸第一步,提出假设0H :两个分类变量Ⅰ和Ⅱ没有关系; 第二步,根据2×2列联表和公式计算χ2统计量;第三步,查对课本中临界值表,作出判断.)在假设0H 下统计量χ2应该很小,如果由观测数据计算得到χ2的观测值很大,则在一定程度上说明假设不合理(即统计量χ2越大,“两个分类变量有关系”的可能性就越大).对于两个分类变量:如果k²>6.635,就约有99%的把握认为“x与y”有关系;α=0.01如果k²>5.024,就约有97.5%的把握认为“x与y”有关系;α=0.025如果k²>3.814,就约有95%的把握认为“x与y”有关系α=0.05如果k²>2.076,就约有90%的把握认为“x与y”有关系α=0.1如果k²≤2.076,就认为没有充分的证据显示“x与y”有关系诊断练习1.下面是一个2×2列联表:则表中a、b().A.94、96 B.52、50 C.52、60 D.54、52 2.下列关于等高条形图的叙述正确的是().A.从等高条形图中可以精确地判断两个分类变量是否有关系B.从等高条形图中可以看出两个变量频数的相对大小C.从等高条形图可以粗略地看出两个分类变量是否有关系D.以上说法都不对3.关于分类变量x与y的随机变量K2的观测值k,下列说法正确的是().A.k的值越大,“X和Y有关系”可信程度越小B.k的值越小,“X和Y有关系”可信程度越小C.k的值越接近于0,“X和Y无关”程度越小D.k的值越大,“X和Y无关”程度越大4.若由一个2×2列联表中的数据计算得k=4.013,那么在犯错误的概率不超过________的前提下认为两个变量之间有关系.5.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P(K2≥k=50×(13×20-10×7)2≈4.844.则认为选修文科与性别有关系出错的可能性约23×27×20×30为________.6.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得的数据,试问:文科学生总成绩不好与数学成绩不好有关系吗?7.某班主任对全班50名学生进行了作业量的调查,数据如表().A.0.01 B.0.005 C.0.025 D.0.0018.利用独立性检验来考察两个分类变量X和Y是否有关系时,通过查阅下表来确定“X与Y有关系”的可信程度.如果k≥5.024,那么就有把握认为“X与Y有关系”的百分比为().9.某卫生机构对366人进行健康体检,有阳性家族史者糖尿病发病的有16例,不发病的有93例,有阴性家族史者糖尿病发病的有17例,不发病的有240例,认为糖尿病患者与遗传有关系的概率为________.10.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未用血清的人一年中的感冒记录作比较,提出假设H0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得k≈3.918,经查对临界值表知P(K2≥3.841)≈0.05.对此,四名同学作出了以下的判断:p:有95%的把握认为“这种血清能起到预防感冒的作用”;q:若某人未使用该血清,那么他在一年中有95%的可能性得感冒;r:这种血清预防感冒的有效率为95%;s:这种血清预防感冒的有效率为5%.则下列结论中,正确结论的序号是________(把你认为正确的命题序号都填上).①p∧非q;②非p∧q;③(非p∧非q)∧(r∨s);④(p∨非r)∧(非q∨s).11.高二(1)班班主任对全班50名学生进行了有关作业量多少的调查,得到如下列联表:12.(创新拓展)第16届亚运会于2010年11月12日至27日在中国广州进行,为了搞好接待工作,组委会招幕了16名男志愿者和14名女志愿者,调查发现,男、女志愿者中分别有10人和6人喜爱运动,其余人不喜爱运动.(1)根据以上数据完成以下2×2列联表:(2)性别与喜爱运动有关?。
高中数学 第一章 统计案例 1.2 独立性检验是如何判断
独立性检验是如何判断两个事件是否相互独立的独立性检验的基本思想类似于反证法.要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下构造的随机变量2χ应该很小.如果由观测数据计算得到的2χ的观测值很大,则在一定程度上说明假设不合理.根据随机变量2χ的含义,可以通过概率式评价该假设不合理的程度,由实际计算的2χ>6.635,说明假设不合理的程度约为99%,即“两个分类变量有关系”这一结论成立的可信程度约为99%.当2χ≤3.841时,认为两个分类变量是无关的.对于两事件而言即相互独立. 1.两个事件独立的判定例1: 为了研究不同的给药方式(口服与注射)和药的效果(有效与无效)是否有关,进根据193个病人的数据,能否作出药的效果与给药方式有关的结论?请说明理由. 解:提出假设H 0:药的效果与给药方式无关系.根据列联表中的数据,得χ2=2193(58314064)122719895-⨯-⨯⨯⨯⨯≈1.3896<2.072.当H 0成立时,χ2>1.3896的概率大于15%,这个概率比较大,所以根据目前的调查数据,不能否定假设H 0,即不能作出药的效果与给药方式有关的结论.注意:这是一个由列联表来验证的独立性检验问题,其结论是没有关系的假设成立.并且应该注意上述结论是对所有口服药物与注射药物的实验人而言的,绝不要误以为对被跟踪的193个跟踪研究对象成立.例2:调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面的数据表.试问能以多大把握认为婴儿的性别与出生时间有关系.分析:利用表中的数据通过公式计算出2χ统计量,可以用它的取值大小来推断独立性是否成立. 解:由公式()841.368892.35732345531826248922<≈⨯⨯⨯⨯-⨯⨯=χ 故婴儿的性别与出生时间是相互独立的(也可以说没有充分证据显示婴儿的性别与出生时间有关).2.两个事件不独立的判定例3:在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶,而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶.利用独立性检验方法判断秃顶与患心脏病是否有关系?你所得的结论在什么范围内有效?分析:列出22⨯列联表,利用公式求出2χ与两个临界值3.841与6.635比较大小得适当范围.解:根据题目所给数据得到如下表所示: 秃顶与患心脏病列联表由公式,得:()635.6373.167726651048389451175597214143722>≈⨯⨯⨯⨯-⨯⨯=χ 所以有99%的把握认为“秃顶与患心脏病有关”.说明:因为这组数据来自住院的病人,因此所得到的结论适合住院的病人群体.例 4.某班主任对全班50名学生进行了作业量多少的调查,喜欢玩电脑游戏的同学认为作业多的有18人,认为作业不多的有9人,不喜欢玩电脑游戏的同学认为作业多的有8人,认为作业不多的有15人,则认为喜欢玩电脑游戏与认为作业量的多少有关系的把握大约是多少?2x =059.523272426)981518(502=⨯⨯⨯⨯-⨯, ()024.52>x P =0.025,有97.5%的把握认为喜欢玩电脑游戏与认为作业多有关系.。
独立性检验(卡方检验)
独⽴性检验(卡⽅检验)
独⽴性检验(Test for Independence)是根据频数来判断两类因⼦是彼此独⽴还是彼此相关的⼀种假设检验。
假如对某⼀个数据集有X(值域为x1, x2)跟Y(值域为y1, y2)变量,下⾯是他们的频数表:
x1x2汇总
y1a b a+b
y2c d c+d
汇总a+c b+d n = a+b+c+d
我们可以使⽤独⽴性检验来了解变量x与y是否有关系,并且能较准确的给出这种判断的可靠程度。
具体做法是由上⾯的频数表计算出随机变量K2的值:
其中K⽅的值越⼤,说明变量X与变量Y有关系的可能性越⼤。
当频数表中a、b、c、d的值都不⼩于5的时候,可以查阅下表来确定“X与Y有关系”的可信程度:
P(K^2≥k)0.50.40.250.150.1
k0.4550.708 1.323 2.072 2.706
P(K^2≥k)0.050.0250.010.0050.001
k 3.841 5.024 6.6357.87910.828
我们为什么不能只凭列联表中的数据和由其绘出的图形得出两个变量是否有关系的结论呢?由列联表可以粗略地估计出两个变量(两类对象)是否有关(即粗略地进⾏独⽴性检验),但2×2列联表中的数据是样本数据,它只是总体的代表,具有随机性,故需要⽤独⽴性检验的⽅法确认所得结论在多⼤程度上适⽤于总体。
独立性卡方检验
,
本科学生实验报告
学号:********** 姓名:@@@@@@
学院:生命科学学院专业、班级:11级应用生物教育A班实验课程名称:生物统计学实验
教师:孟丽华(讲师)
开课学期:2012 至2013 学年下学期填报时间:2013 年 4 月30 日
云南师范大学教务处编印
表2 Kruskal-Wallis 检验
秩
健/病株数N 秩均值
品种健康2250 1336.26
患病500 1552.09
总数2750
表3
检验统计量a,b
品种
卡方31.543
df 1
渐近显著性.000
a. Kruskal Wallis 检验
b. 分组变量: 健/病株数
通过独立性卡方检验得:表3的皮尔逊卡方检验、似然比、线性和线性组合等得出:自由度为4时,0.01水平的卡方值是1336.26,而结果远大于这个值,因此可以推断出不同的品种与赤霉病的发生是有关联的。
(六)、实验总结分析:
1、卡方检验主要应用在:推断两个或多个样本率及构成比之间的差别有无统计学意义,分类变量配对设计下的卡方检验.频数分布的拟合优度检验等。
2、独立性检验适用于离散型资料的假设检验,其基本原理就是通过卡方值的大小来检验实际观测值与理论值之间的偏离程度,独立性检验是判断两个或多个因素是否具有关联关系;
3、由于卡方分布是连续的,而计数资料或属性资料是离散的,所以所得到。