高考数学真题专题十一 概率与统计第三十三讲 回归分析与独立性检验答案
专题11 概率与统计第二十九讲 回归分析与独立性检验(原卷版)
专题11 概率与统计第二十九讲 回归分析与独立性检验一、选择题1.(2017山东)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为ˆˆˆy bx a =+.已知101225i i x ==∑,1011600i i y ==∑,ˆ4b =.该班某学生的脚长为24,据此估计其身高为A .160B .163C .166D .1702.(2015福建)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:收入x (万元) 8.2 8.6 10.0 11.3 11.9 支出y (万元)6.2 7.58.08.59.8根据上表可得回归本线方程ˆˆˆybx a =+ ,其中ˆˆˆ0.76,b a y bx ==- ,据此估计,该社区一户收入为15万元家庭年支出为A .11.4万元B .11.8万元C .12.0万元D .12.2万元 二、解答题9.(2018全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1217,,…,)建立模型①:ˆ30.413.5=-+y t;根据2010年至2016年的数据(时间变量t的值依次为127,,…,)建立模型②:ˆ9917.5=+y t.(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由.10.(2016年全国III)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图(Ⅰ)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(Ⅱ)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:719.32iiy==∑,7140.17i iit y==∑721()0.55iiy y=-=∑7≈2.646.参考公式:相关系数12211()()()(y y)ni iin ni ii it t y yrt t===--=--∑∑∑回归方程y a bt=+)))中斜率和截距的最小二乘估计公式分别为:121()()()ni iiniit t y ybt t==--=-∑∑),=.a y bt-)))11.(2015新课标1)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费ix和年销售量iy(i=1,2,···,8)数据作了初步处理,得到下面的散点图及一些统计量的值.x y w821()iix x=-∑821()iiw w=-∑81()()i iix x y y=--∑81()()i iiw w y y=--∑46.6 563 6.8 289.8 1.6 1469 108.8表中i iw x=w=1881iiw=∑.(Ⅰ)根据散点图判断,y a bx=+与y c x=+哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)(Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立y关于x的回归方程;(Ⅲ)已知这种产品的年利率z与x、y的关系为0.2z y x=-.根据(Ⅱ)的结果回答下列问题:(ⅰ)年宣传费x=49时,年销售量及年利润的预报值是多少?(ⅱ)年宣传费x为何值时,年利率的预报值最大?附:对于一组数据11(,)u v,22(,)u v,⋅⋅⋅,(,)n nu v,其回归线v uαβ=+的斜率和截距的最小二乘估计分别为121()()ˆ()ni iiniiu u v vu uβ==--=-∑∑,ˆˆv uαβ=-.。
十年高考理科数学真题 专题十一 概率与统计 三十三 回归分析与独立性检验及答案
专题十一 概率与统计第三十三讲 回归分析与独立性检验一、选择题1.(2017山东)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为ˆˆˆy bx a =+.已知101225i i x ==∑,1011600i i y ==∑,ˆ4b =.该班某学生的脚长为24,据此估计其身高为A .160B .163C .166D .1702.(2015福建)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归本线方程ˆˆˆybx a =+ ,其中ˆˆˆ0.76,b a y bx ==- ,据此估计,该社区一户收入为15万元家庭年支出为A .11.4万元B .11.8万元C .12.0万元D .12.2万元 3.(2014重庆)已知变量x 与y 正相关,且由观测数据算得样本的平均数3x =, 3.5y =,则由该观测数据算得的线性回归方程可能为A .$0.4 2.3y x =+B .$2 2.4y x =-C .$29.5y x =-+D .$0.3 4.4y x =-+ 4.(2014湖北)根据如下样本数据得到的回归方程为ˆybx a =+,则 A .0a >,0b < B .0a >,0b > C .0a <,0b < D .0a <,0b > 5.(2012新课标)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线112y x =+上,则这组样本数据的样本相关系数为A .−1B .0C .12D .16.(2014江西)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量之间的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是7.(2012湖南)设某大学的女生体重y (单位:kg )与身高x (单位:cm )具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为$y =0.85x -85.71,则下列结论中不正确...的是 A .y 与x 具有正的线性相关关系 B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1cm ,则其体重约增加0.85kgD .若该大学某女生身高为170cm ,则可断定其体重必为58.79kg 8.(2011山东)某产品的广告费用x 与销售额y 的统计数据如下表广告费用x (万元) 4 2 3 5 销售额y (万元)49263954根据上表可得回归方程ˆˆˆy bx a =+中的ˆb 为9.4,据此模型预报广告费用为6万元时销售额为A .63.6万元B .65.5万元C .67.7万元D .72.0万元二、解答题9.(2018全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1217,,…,)建立模型①:ˆ30.413.5=-+yt ;根据2010年至2016年的数据(时间变量t 的值依次为127,,…,)建立模型②:ˆ9917.5=+yt . (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.10.(2016年全国III)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图(Ⅰ)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (Ⅱ)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:719.32ii y==∑,7140.17i i i t y ==∑,721()0.55ii y y =-=∑,7≈2.646.参考公式:相关系数12211()()()(yy)ni ii n ni ii i t t y y r t t ===--=--∑∑∑,回归方程y a bt =+)))中斜率和截距的最小二乘估计公式分别为:121()()()nii i nii tt y y b tt ==--=-∑∑),=.a y bt -)))11.(2015新课标1)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的年宣传费i x 和年销售量i y (i =1,2,···,8)数据作了初步处理,得到下面的散点图及一些统计量的值.xyw821()ii x x =-∑821()ii w w =-∑81()()iii x x yy =--∑81()()iii w w yy =--∑46.65636.8289.8 1.61469 108.8表中i i w x =w =1881i i w =∑.(Ⅰ)根据散点图判断,y a bx =+与y c x =+哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由) (Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立y 关于x 的回归方程;(Ⅲ)已知这种产品的年利率z 与x 、y 的关系为0.2z y x =-.根据(Ⅱ)的结果回答下列问题:(ⅰ)年宣传费x =49时,年销售量及年利润的预报值是多少? (ⅱ)年宣传费x 为何值时,年利率的预报值最大?附:对于一组数据11(,)u v ,22(,)u v ,⋅⋅⋅,(,)n n u v ,其回归线v u αβ=+的斜率和截距的最小二乘估计分别为121()()ˆ()niii nii u u v v u u β==--=-∑∑,ˆˆv u αβ=-. 12.(2014新课标2)某地区2007年至2013年农村居民家庭纯收入y (单位:千元)的数据如下表:(Ⅰ)求y 关于t 的线性回归方程;(Ⅱ)利用(Ⅰ)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入. 附:回归直线的斜率和截距的最小二乘估计公式分别为:()()()121nii i ni i tty y b t t ∧==--=-∑∑,ˆˆay bt =- 13.(2012辽宁)电视传媒公司为了解某地区电视观众对某体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.(I )根据已知条件完成下面22⨯列联表,并据此资料你是否认为“体育迷”与性别有关?非体育迷 体育迷 合计 男 女合计(II )将日均收看该体育节目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性.若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.21212211222112)(++++-=n n n n n n n n n χ, 附:专题十一 概率与统计第三十三讲 回归分析与独立性检验答案部分1.C 【解析】因为22.5x =,160y =,所以$160422.570a=-⨯=,42470166y =⨯+=,选C .2.B 【解析】∵10.0x =,8.0y =,ˆ0.76b=,∴ˆ80.76100.4a =-⨯=, ∴回归方程为ˆ0.760.4yx =+,把15x =代入上式得, )(2k P ≥χ 0.050.01k3.841 6.635ˆ0.76150.411.8y=?=(万元),选B . 3.A 【解析】由题意可知,相应的回归直线的斜率应为正,排除C 、D .且直线必过点(3,3.5),代入A 、B 得A 正确.4.A 【解析】画出散点图知0,0b a <>.5.D 【解析】因为所有的点都在直线上,这组样本数据完全正相关,故其相关系数为1,故选D.6.D 【解析】因为222152(6221410)5281636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,222252(4201612)521121636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,222352(824128)52961636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,222452(143062)524081636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,则有22224231χχχχ>>>,所以阅读量与性别关联的可能性最大.7.D 【解析】由回归方程为$y =0.85x -85.71知y 随x 的增大而增大,所以y 与x 具有正的线性相关关系,由最小二乘法建立的回归方程得过程知ˆ()ybx a bx y bx a y bx =+=+-=-, 所以回归直线过样本点的中心(x ,y ),利用回归方程可以预测估计总体,所以D 不正确.8.B 【解析】样本中心点是(3.5,42),则ˆˆ429.4 3.59.1ay bx =-=-⨯=,所以回归方程是ˆ9.49.1yx =+,把6x =代入得ˆ65.5y =. 9.【解析】(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为ˆ30.413.519226.1y=-+⨯=(亿元). 利用模型②,该地区2018年的环境基础设施投资额的预测值为ˆ9917.59256.5y=+⨯=(亿元).(2)利用模型②得到的预测值更可靠. 理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线30.413.5y t =-+上下.这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型ˆ9917.5yt =+可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理.说明利用模型②得到的预测值更可靠.以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分. 10.【解析】(Ⅰ)由折线图这数据和附注中参考数据得4=t ,28)(712=-∑=i i t t ,55.0)(712=-∑=i iy y,40.1749.32 2.89==-⨯=,99.0646.2255.089.2≈⨯⨯≈r .因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关相当高,从而可以用线性回归模型拟合y 与t 的关系.(Ⅱ)由331.1732.9≈=y 及(Ⅰ)得71721()()2.89ˆ0.10328()ii i ii tt y y b tt ==--==≈-∑∑, 92.04103.0331.1ˆˆ≈⨯-≈-=t b y a. 所以,y 关于t 的回归方程为:t y10.092.0ˆ+=. 将2016年对应的9=t 代入回归方程得:82.1910.092.0ˆ=⨯+=y. 所以预测2016年我国生活垃圾无害化处理量将约1.82亿吨.11.【解析】(Ⅰ)由散点图可以判断,y c =+适宜作为年销售量y 关于年宣传费x 的回归方程类型.(Ⅱ)令w =y 关于w 的线性回归方程,由于81821()()108.8ˆ681.6()iii ii w w y y dw w ==--===-∑∑. ˆˆ56368 6.8100.6cy dw =-=-⨯=, 所以y 关于w 的线性回归方程为ˆ100.668y w =+,因此y 关于x 的回归方程为ˆ100.6y=+ (Ⅲ)(ⅰ)由(Ⅱ)知,当49x =时,年销售量y 的预报值ˆ100.6576.6y=+= 年利润z 的预报值ˆ576.60.24966.32z=⨯-=. (ⅱ)根据(Ⅱ)得结果知,年利润z 的预报值ˆ0.2(100.620.12zx x =+-=-+.13.66.82==,即46.24x =时,ˆz取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大. 12.【解析】(I ) 由所给数据计算得17t =(1+2+3+4+5+6+7)=4 17y =(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3 7211()t tt =-∑=9+4+1+0+1+4+9=287111()()t tt y y =--∑=(3)( 1.4)(2)(1)(1)(0.7)-⨯-+-⨯-+-⨯-00.110.520.93 1.614+⨯+⨯+⨯+⨯=71117211()()140.528()t t tt y y btt ==--===-∑∑$,$ 4.30.54 2.3ay bt =-=-⨯=$. 所求回归方程为$0.5 2.3y t =+.13.【解析】(I)由频率颁布直方图可知,在抽取的100人中,“体育迷”有25人,从而2×2列联表如下:由2×2列联表中数据代入公式计算,得:222112212211212()100(30104515)100 3.0307525455533n n n n n x n n n n ++++-⨯-⨯==≈⨯⨯⨯因为3.030<3.841,所以,没有理由认为“体育迷”与性别有关.(II )由频率分布直方图可知,“超级体育迷”为5人,从而一切可能结果所组成的基本事件空间12132311{(,),(,),(,),(,)a a a a a a a b Ω=12212231,(,),(,),(,),(,),a b a b a b a b3212(,),(,)}a b b b 其中i a 表示男性,1,2,3i =.j b 表示女性,1,2j =.Ω由10个基本事件组成,而且这些事件的出现时等可能的.用A 表示“任选2人中至少有1名是女性”这一事件,则11122122313212{(,),(,),(,),(,),(,),(,),(,)}A a b a b a b a b a b a b b b = ∴7()10P A =。
专题11 概率与统计第二十九讲 回归分析与独立性检验(解析版)
专题11 概率与统计第二十九讲 回归分析与独立性检验答案部分1.C 【解析】因为22.5x =,160y =,所以160422.570a =-⨯=,42470166y =⨯+=,选C .2.B 【解析】∵10.0x =,8.0y =,ˆ0.76b=,∴ˆ80.76100.4a =-⨯=, ∴回归方程为ˆ0.760.4yx ,把15x 代入上式得,ˆ0.76150.411.8y(万元),选B . 9.【解析】(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为ˆ30.413.519226.1y=-+⨯=(亿元). 利用模型②,该地区2018年的环境基础设施投资额的预测值为ˆ9917.59256.5y=+⨯=(亿元). (2)利用模型②得到的预测值更可靠. 理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线30.413.5y t =-+上下.这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型ˆ9917.5yt =+可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理.说明利用模型②得到的预测值更可靠.以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分. 10.【解析】(Ⅰ)由折线图这数据和附注中参考数据得4=t ,28)(712=-∑=i i t t ,55.0)(712=-∑=i iy y,40.1749.32 2.89==-⨯=,99.0646.2255.089.2≈⨯⨯≈r .因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关相当高,从而可以用线性回归模型拟合y 与t 的关系.(Ⅱ)由331.1732.9≈=y 及(Ⅰ)得71721()()2.89ˆ0.10328()ii i ii tt y y b tt ==--==≈-∑∑, 92.04103.0331.1ˆˆ≈⨯-≈-=t b y a. 所以,y 关于t 的回归方程为:t y10.092.0ˆ+=. 将2016年对应的9=t 代入回归方程得:82.1910.092.0ˆ=⨯+=y. 所以预测2016年我国生活垃圾无害化处理量将约1.82亿吨.11.【解析】(Ⅰ)由散点图可以判断,y c =+适宜作为年销售量y 关于年宣传费x 的回归方程类型.(Ⅱ)令w =y 关于w 的线性回归方程,由于81821()()108.8ˆ681.6()iii ii w w y y dw w ==--===-∑∑. ˆˆ56368 6.8100.6cy dw =-=-⨯=, 所以y 关于w 的线性回归方程为ˆ100.668y w =+,因此y 关于x 的回归方程为ˆ100.6y=+ (Ⅲ)(ⅰ)由(Ⅱ)知,当49x =时,年销售量y 的预报值ˆ100.6576.6y=+= 年利润z 的预报值ˆ576.60.24966.32z=⨯-=.(ⅱ)根据(Ⅱ)得结果知,年利润z的预报值ˆ0.2(100.620.12z x x=+-=-+.13.66.82==,即46.24x=时,ˆz取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.。
高考数学总复习 103相关关系、回归分析与独立性检验
10-3相关关系、回归分析与独立性检验基础巩固强化1.(文)某商品销售量y (件)与销售价格x (元/件)负相关,则其回归方程可能是( ) A.y ^=-10x +200 B.y ^=10x +200 C.y ^=-10x -200 D.y ^=10x -200[答案] A[解析] 由于销售量y 与销售价格x 成负相关,故x 的系数应为负,排除B 、D ;又当x =10时,A 中y =100,C 中y =-300显然C 不合实际,故排除C ,选A.(理)(2012·湖南)设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确...的是( ) A .y 与x 具有正的线性相关关系 B .回归直线过样本点的中心(x -,y -)C .若该大学某女生身高增加1cm ,则其体重约增加0.85kgD .若该大学某女生身高为170cm ,则可断定其体重必为58.79kg [答案] D[解析] 本题考查线性回归方程.D 项中身高为170cm 时,体重“约为”58.79,而不是“确定”,回归方程只能作出“估计”,而非确定“线性”关系.2.(2012·东北三校模拟)某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算χ2=7.069,则所得到的统计学结论是:有( )的把握认为“学生性别与支持活动有关系”.( )A .0.1%B .1%C .99%D .99.9%附:[[解析] 由题意得,从给出的附表中可得P (χ2≥6.635)=0.010,又7.069∈(6.635,10.828),所以有99%的把握性认为学生性别与支持该活动有关系,故选C.3.(2012·新课标全国,3)在一组样本数据(x 1,y 1)、(x 2,y 2)、…、(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( ) A .-1 B .0 C.12 D .1[答案] D[解析] 样本相关系数越接近1,相关性越强,现在所有的样本点都在直线y =12x +1上,样本的相关系数应为1.要注意理清相关系数的大小与相关性强弱的关系.4.(2012·广州市检测)某中学高三从甲、乙两个班级各选出7名学生参加数学竞赛,他们取得的成绩(满分100分)的茎叶图如图,其中甲班学生的平均分是85,乙班学生成绩的中位数是83,则x +y 的值为( )A.7 B .8 C .9 D .10 [答案] B[解析] 由茎叶图得,甲班学生的平均分是78+79+80+80+x +85+92+967=85,解得x =5.因为乙班学生成绩的中位数是83,故只有80+y =83,解得y =3.所以x +y =8.故选B.5.(文)(2011·山东文,8)某产品的广告费用x 与销售额y 的统计数据如下表广告费用x (万元) 4 2 3 5 销售额y (万元)49263954根据上表可得回归方程y =b x +a 中的b 为9.4,据此模型预报广告费用为6万元时销售额为( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元[答案] B[解析] 此题必须明确回归直线方程过定点(x ,y ).易求得x =3.5,y =42,则将(3.5,42)代入y ^=b ^x +a ^中得:42=9.4×3.5+a ^,即a ^=9.1,则y =9.4x +9.1,所以当广告费用为6万元时销售额为9.4×6+9.1=65.5万元.(理)(2012·石家庄市二模)从某高中随机选取5名高三男生,其身高和体重的数据如下表所示:根据上表可得回归直线方程y =0.56x +a ,据此模型预报身高为172cm 的高三男生的体重为( )A .70.09kgB .70.12kgC .70.55kgD .71.05kg[答案] B[解析] x -=160+165+170+175+1805=170,y -=63+66+70+72+745=69.∵回归直线过点(x -,y -),∴将点(170,69)代入y ^=0.56x +a ^中得a ^=-26.2, ∴回归直线方程y ^=0.56x -26.2, 代入x =172cm ,则其体重为70.12kg.6.(2011·山东烟台一模、江西吉安质检)下表提供了某厂节能降耗技术改造后在生产A 产品过程中记录的产量x (t)与相应的生产能耗y (t)的几组对应数据:根据上表提供的数据,求出y 关于x 的线性回归方程为y =0.7x +0.35,那么表中t 的值为( )A .3B .3.15C .3.5D .4.5[答案] A[解析] 样本中心点是(x -,y -),即(4.5,11+t 4).因为回归直线过该点,所以11+t 4=0.7×4.5+0.35,解得t =3.7.(2011·合肥模拟)已知x 、y 之间的一组数据如下表:x 1 3 6 7 8 y12345对于表中数据,甲、乙两同学给出的拟合直线分别为l 1:y =3x +1与l 2:y =12x +12,利用最小二乘法判断拟合程度更好的直线是________(填l 1或l 2).[答案] l 2[解析] 用y =13x +1作为拟合直线时,所得y 值与y 的实际值的差的平方和为s 1=73;用y =12x +12作为拟合直线时,所得y 值与y 的实际值的差的平方和为s 2=12.∵s 2<s 1,故用直线y =12x +12拟合程度更好.8.(2012·浙江调研)某工厂对一批元件进行了抽样检测,根据抽样检测后的元件长度(单位:mm)数据绘制了频率分布直方图(如图).若规定长度在[97,103)内的元件是合格品,则根据频率分布直方图估计这批产品的合格率是________.[答案] 80%[解析] 依题意,可估计这批产品的合格率是 1-(0.0275×2+0.0450)×2=80%. 9.以下四个命题:①从匀速传递的产品生产流水线上,质检员每20min 从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量相关性越强,则相关系数的绝对值越接近于1;③在线性回归方程y ^=0.2x +12中,当解释变量x 每增加一个单位时,预报变量y ^平均增加0.2个单位;④对分类变量X 与Y ,它们的随机变量χ2的观测值k 来说,k 越小,“X 与Y 有关系”的把握程度越大.其中正确命题的序号是________. [答案] ②③10.(2012·扬州模拟)为了分析某个高三学生的学习状态,对其下一阶段的学习提供指导性建议.现对他前7次考试的数学成绩x 、物理成绩y 进行分析.下面是该生7次考试的成绩:(1)(2)已知该生的物理成绩y 与数学成绩x 是线性相关的,若该生的物理成绩达到115分,请你估计他的数学成绩大约是多少?并请你根据物理成绩与数学成绩的相关性,给出该生在学习数学、物理上的合理性建议.[解析] (1)x -=100+-12-17+17-8+8+127=100;y -=100+-6-9+8-4+4+1+67=100;∴s 2数学=9947=142,s 2物理=2507,从而s 2数学>s 2物理,∴物理成绩更稳定.(2)由于x 与y 之间具有线性相关关系,根据回归系数公式得到b ^=∑i =17x i y i -7x -y -∑i =17x 2i -7x -2=497994≈0.5, a ^=y --b ^x -=100-0.5×100=50,∴回归直线方程为y ^=0.5x +50.当y =115时,x =130,即该生物理成绩达到115分时,他的数学成绩大约为130分.建议:进一步加强对数学的学习,提高数学成绩的稳定性,将有助于物理成绩的进一步提高.能力拓展提升11.(2012·东北三校联考)某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算χ2=7.069,则所得到的统计学结论是:有( )的把握认为“学生性别与是否支持该活动有关系”.附:P (χ2≥k 0)0.100 0.050 0.025 0.010 0.001 k 02.7063.8415.0246.63510.828A C .99% D .99.9%[答案] C[解析] 因为7.069与附表中的6.635最接近,所以得到的统计学结论是:有1-0.010=0.99=99%的把握认为“学生性别与是否支持该活动有关系”,选C.12.下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②设有一个回归方程为y ^=3-5x ,变量x 增加一个单位时,y 平均增加5个单位; ③线性相关系数r 和相关指数R 2都是描述线性相关强度的量,r 和R 2越大,相关强度越强.④在一个2×2列联表中,计算得χ2=13.079,则有99%的把握确认这两个变量间有关系.其中错误..的个数是( ) A .0 B .1 C .2 D .3 本题可以参考独立性检验临界值表:P (χ2≥k 0)0.50 0.40 0.25 0.15 0.10 k 0 0.455 0.708 1.323 2.072 2.706 P (χ2≥k 0)0.05 0.025 0.010 0.005 0.001 k 03.8415.0246.6357.87910.828[答案[解析] 方差反映的是波动大小的量,故①正确;②中由于-5<0,故应是负相关,当x 每增加1个单位时,y 平均减少5个单位,∴②错误;相关系数r 是描述线性相关强度的量,|r |越接近于1,相关性越强,在线性相关的两个变量的回归直线方程中,R 2是描述回归效果的量,R 2越大,模型的拟合效果越好,故③错误;④显然正确.13.(2012·湖南文,13)下图是某学校一名篮球运动员在五场比赛中所得分数的茎叶图,则该运动员在这五场比赛中得分的方差为________.(注:方差s 2=1n[(x 1-x -)2-(x 2-x -)2+…+(x n -x -)2],其中x -为x 1,x 2,…,x n 的平均数)[答案] 6.8[解析] 本题考查茎叶图、方差的概念. 由茎叶图知x -=8+9+10+13+155=11,∴s 2=15[(8-11)2+(9-11)2+(10-11)2+(13-11)2+(15-11)2]=6.814.(2011·辽宁文,19)某农场计划种植某种新作物,为此对这种作物的两个品种(分别称为品种甲和品种乙)进行田间试验.选取两大块地,每大块地分成n 小块地,在总共2n 小块地中,随机选n 小块地种植品种甲,另外n 小块地种植品种乙.(1)假设n =2,求第一大块地都种植品种甲的概率;(2)试验时每大块地分成8小块,即n =8,试验结束后得到品种甲和品种乙在各小块地的每公顷产量(单位:kg/hm 2)如下表:你认为应该种植哪一品种?附:样本数据x 1,x 2,…,x n 的样本方差s 2=1n[(x 1-x )2+(x 2-x )2+…+(x n -x )2],其中x 为样本平均数.[解析] (1)设第一大块地中的两小块地编号为1,2,第二大块地中的两小块地编号为3,4.令事件A =“第一大块地都种品种甲”.从4块小地中任选2小块地种植品种甲的基本事件共6个:(1,2),(1,3),(1,4),(2,3),(2,4),(3,4).而事件A 包含1个基本事件:(1,2). 所以P (A )=16.(2)品种甲的每公顷产量的样本平均数和样本方差分别为:x 甲=18(403+397+390+404+388+400+412+406)=400s 2甲=18(32+(-3)2+(-10)2+42+(-12)2+02+122+62)=57.25.品种乙的每公顷产量的样本平均数和样本方差分别为:x 乙=18(419+403+412+418+408+423+400+413)=412.s 2乙=18(72+(-9)2+02+62+(-4)2+112+(-12)2+12)=56.由以上结果可以看出,品种乙的样本平均数大于品种甲的样本平均数,且两品种的样本方差差异不大,故应该选择种植品种乙.15.(2011·福建普通高中质检)某中学将100名高一新生分成水平相同的甲、乙两个“平行班”,每班50人.陈老师采用A 、B 两种不同的教学方式分别在甲、乙两个班级进行教改实验.为了了解教学效果,期末考试后,陈老师分别从两个班级中各随机抽取20名学生的成绩进行统计,作出茎叶图如下.记成绩不低于90分者为“成绩优秀”.(1)在乙班样本中的20个个体中,从不低于86分的成绩中随机抽取2个,求抽出的两个均“成绩优秀”的概率;(2)由以上统计数据填写下面列联表,并判断是否有90%的把握认为:“成绩优秀”与教学方式有关.甲班(A 方式)乙班(B 方式)总计 成绩优秀 成绩不优秀 总计附:K 2=n ad -bc 2a +bc +d a +cb +d (此公式也可写成χ2=n n 11n 22-n 12n 212n 1+n 2+n +1n +2P (χ2≥k )0.25 0.15 0.10 0.05 0.025 k1.3232.0722.7063.8415.024[解析] 从不低于86分的成绩中随机抽取2个的基本事件为(86,93),(86,96),(86,97),(86,99),(86,99),(93,96),(93,97),(93,99),(93,99),(96,97),(96,99),(96,99),(97,99),(97,99),(99,99),共15个.而事件A 包含基本事件:(93,96),(93,97),(93,99),(93,99),(96,97),(96,99),(96,99),(97,99),(97,99),(99,99),共10个.所以所求概率为P (A )=1015=23.(2)由已知数据得甲班(A 方式)乙班(B 方式)总计 成绩优秀 1 5 6 成绩不优秀 19 15 34 总计202040根据列联表中数据,χ2=40×1×15-5×1926×34×20×20≈3.137,由于3.137>2.706,所以有90%的把握认为“成绩优秀”与教学方式有关.16.(文)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四次试验,得到的数据如下:零件的个数x (个) 2 3 4 5 加工的时间y (小时)2.5344.5(1)在给定的坐标系中画出表中数据的散点图;(2)求出y 关于x 的线性回归方程y ^=bx +a ,并在坐标系中画出回归直线; (3)试预测加工10个零件需要多少时间?(注:b =∑i =1nx i y i -n x -y-∑i =1nx 2i -n x -2,a =y --b x -) [解析] (1)散点图如图.(2)由表中数据得∑i =14x i y i =52.5,x -=3.5,y -=3.5,∑i =14x 2i =54,∴b =0.7.∴a =1.05.∴y ^=0.7x +1.05.回归直线如图所示.(3)将x =10代入回归直线方程得,y =0.7×10+1.05=8.05(小时), ∴预测加工10个零件需要8.05小时.(理)(2012·河南新乡、许昌、平顶山调研)在某医学实验中,某实验小组为了分析某药物用药量与血液中某种抗体水平的关系,选取六只实验动物进行血检,得到如下资料:动物编号 1 2 3 4 5 6 用药量x (单位) 134568抗体指标y (单位)3.4 3.7 3.84.0 4.2 4.3记s 为抗体指标标准差,若抗体指标落在(y -s ,y +s )内,则称该动物为有效动物,否则称为无效动物.研究方案规定先从六只动物中选取两只,用剩下的四只动物的数据求线性回归方程,再对被选取的两只动物数据进行检验.(1)求选取的两只动物都是有效动物的概率;(2)若选取的是编号为1和6的两只动物,且利用剩余四只动物的数据求出y 关于x 的线性回归方程为y ^=0.17x +a ,试求出a 的值;(3)若根据回归方程估计出的1号和6号动物抗体指标数据与检验结果误差都不超过抗体指标标准差,则认为得到的线性回归方程是可靠的.试判断(2)中所得线性回归方程是否可靠.参考公式:样本数据x 1,x 2,…,x n 的标准差:S =1n[x 1-x-2+x 2-x-2+…+x n -x-2],其中x -为样本平均数.[解析] (1)y -=3.9,s ≈0.31.故1、6号为无效动物,2、3、4、5号为有效动物. 记从六只动物中选取两只为事件A .所有可能结果为(1,2),(1,3),(1,4),(1,5),(1,6),(2,3),(2,4),(2,5),(2,6),(3,4),(3,5),(3,6),(4,5),(4,6),(5,6)共15种.满足题意的有(2,3),(2,4),(2,5),(3,4),(3,5),(4,5)共6种.故P (A )=615=25.(2)对于2、3、4、5号动物,x -=4.5,y -=3.925, 代入y ^=0.17x +a 得a =3.16.(3)由y ^=0.17x +3.16得y ^1=3.33,y ^6=4.52.误差e 1=0.07,e 6=0.22,均比标准差s ≈0.31小,故(2)中回归方程可靠.1.(2011·济南模拟)对于回归分析,下列说法错误的是( )A .在回归分析中,变量间的关系是非确定性关系,因此因变量不能由自变量唯一确定B .线性相关系数可以是正的或负的C .回归分析中,如果r =±1,说明x 与y 之间完全线性相关D .样本相关系数r ∈(-1,1) [答案] D[解析] ∵相关系数|r |≤1,∴D 错.2.(2012·湖北武汉市训练)已知一个样本容量为10的样本数据,它们组成一个公差不为0的等差数列{a n },若a 3=8,且a 1,a 3,a 7成等比数列,则此样本的平均数和中位数分别是( )A .13,12B .13,13C .12,13D .13,14[答案] B[解析] 设数列{a n }的公差为d ,由a 1,a 3,a 7成等比数列,得a 23=a 1a 7,则82=(8-2d )(8+4d ),解得d =0(舍去)或d =2.故a 1=a 3-2d =4,a n =a 1+(n -1)d =2n +2.故此样本数据的平均数为a 1+a 2+…+a 1010=104+222×10=13,中位数为a 5+a 610=12+142=13.3.有甲、乙两个班级进行数学考试,按照大于等于85分的优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:优秀 非优秀 总计 甲班 10b乙班 c30 总计105已知在全部105人中随机抽取1人,成绩优秀的概率为27,则下列说法正确的是( )参考公式:χ2=n ad -bc 2a +bc +d a +cb +d附表:P (χ2≥k )0.050 0.010 0.001 k3.8416.63510.828A.B .列联表中c 的值为15,b 的值为50C .根据列联表中的数据,若按95%的可靠性要求,能认为“成绩与班级有关系”D .根据列联表中的数据,若按95%的可靠性要求,不能认为“成绩与班级有关系” [答案] C[解析] 由题意知,成绩优秀的学生数是30,成绩非优秀的学生数是75,所以c =20,b =45,选项A 、B 错误.根据列联表中的数据,得到K 2=105×10×30-20×45255×50×30×75≈6.109>3.841,因此有95%的把握认为“成绩与班级有关系”,选项C 正确.4.某市居民2005~2009年家庭年平均收入x (单位:万元)与年平均支出Y (单位:万元)的统计资料如下表所示:年份20052006200720082009收入x 11.512.11313.315支出Y 6.88.89.81012有________线性相关关系.[答案]13 正[解析]找中位数时,将样本数据按大小顺序排列后奇数个时中间一个是中位数,而偶数个时须取中间两数的平均数,由统计资料可以看出,年平均收入增多时,年平均支出也增多,因此两者正相关.5.考察黄烟经过药物处理跟发生青花病的关系,得到如下数据,在试验的470珠黄烟中,经过药物处理的黄烟有25珠发生青花病,60株没有发生青花病.未经过药物处理的有185株发生青花病,200株没有发生青花病,试推断药物处理跟发生青花病是否有关系.[解析]由已知得到下表经药物处理未经药物处理合计患青花病25185210无青花病60200260合计85385470根据公式k2=2210×260×85×385≈9.788.由于9.788>7.879,所以我们有99.5%的把握认为经过药物处理跟发生青花病是有关系的.6.(2011·湖南六校联考)某兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局与某医院抄录了1至6月份每月10日的昼夜温差情况与因患感冒而就诊的人数,得到如下资料:日期1月10日2月10日3月10日4月10日5月10日6月10日昼夜温差x(℃)101113128 6 就诊人数y(人)222529261612回归方程,再用被选取的2组数据进行检验.(1)求选取的2组数据恰好是相邻两个月的概率;(2)若选取的是1月与6月的两组数据,请根据2至5月份的数据,求出y 关于x 的线性回归方程y ^=bx +a ;(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2人,则认为得到的线性回归方程是理想的,试问该小组所得线性回归方程是否理想?(参考公式:b =∑i =1nx i -x-y i -y-∑i =1nx i -x-2,a =y --b x -.)[解析] 将6组数据按月份顺序编号为1,2,3,4,5,6,从中任取两组数据,基本事件构成的集合为Ω={(1,2),(1,3),(1,4),(1,5),(1,6),(2,3),(2,4),(2,5),(2,6),(3,4),(3,5),(3,6),(4,5),(4,6),(5,6)}中共15个基本事件,设抽到相邻两个月的事件为A ,则A ={(1,2),(2,3),(3,4),(4,5),(5,6)}中共5个基本事件,∴P (A )=515=13.(2)由表中数据求得x -=11,y -=24, 由参考公式可得b =187,再由a =y --b x -求得a =-307,所以y 关于x 的线性回归方程为y ^=187x -307.(3)当x =10时,y ^=1507,|1507-22|=47<2;同样,当x =6时,y ^=787,|787-12|=67<2.所以,该小组所得线性回归方程是理想的.。
玩转高中数学研讨 第33讲 回归分析与独立性检验
专题十一 概率与统计第三十三讲 回归分析与独立性检验1.(2020•全国1卷)某校一个课外学习小组为研究某作物种子的发芽率y 和温度x (单位:°C )的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(,)(1,2,,20)i i x y i =得到下面的散点图:由此散点图,在10°C 至40°C 之间,下面四个回归方程类型中最适宜作为发芽率y 和温度x 的回归方程类型的是( ) A. y a bx =+B. 2y a bx =+C. e xy a b =+D. ln y a b x =+【答案】D【解析】根据散点图的分布可选择合适的函数模型.【详解】由散点图分布可知,散点图分布在一个对数函数的图象附近,因此,最适合作为发芽率y 和温度x 的回归方程类型的是ln y a b x =+.故选:D. 【点睛】本题考查函数模型的选择,主要观察散点图的分布,属于基础题.2.(2020•全国2卷)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(x i ,y i )(i =1,2,…,20),其中x i 和y i 分别表示第i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得20160i ix==∑,2011200i i y ==∑,2021)80i i x x =-=∑(,2021)9000i iy y =-=∑(,201))800i i i x y x y =--=∑((.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(x i ,y i )(i =1,2,…,20)的相关系数(精确到0.01);附:相关系数r =12211))))ni iiiin ni i x y x x y y y x ===----∑∑∑((((,≈1.414.【答案】(1)12000;(2)0.94;(3)详见解析【解析】(1)利用野生动物数量的估计值等于样区野生动物平均数乘以地块数,代入数据即可;(2)利用公式20120202211()()()()iii iii i x x y y r x x y y ===--=--∑∑∑计算即可;(3)各地块间植物覆盖面积差异较大,为提高样本数据的代表性,应采用分层抽样.【详解】(1)样区野生动物平均数为201111200602020i i y ==⨯=∑, 地块数为200,该地区这种野生动物的估计值为2006012000⨯= (2)样本(,)i i x y (i =1,2,…,20)的相关系数为20120202211()()220.94809000()()iii iii i x x y y r x x y y ===--===≈⨯--∑∑∑(3)由(2)知各样区的这种野生动物的数量与植物覆盖面积有很强的正相关性, 由于各地块间植物覆盖面积差异很大,从俄各地块间这种野生动物的数量差异很大, 采用分层抽样的方法较好地保持了样本结构与总体结构得以执行,提高了样本的代表性, 从而可以获得该地区这种野生动物数量更准确的估计.【点晴】本题主要考查平均数的估计值、相关系数的计算以及抽样方法的选取,考查学生数学运算能力,是一道容易题.3.(2020•全国3卷)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?附:22()()()()()n ad bcKa b c d a c b d-=++++,【答案】(1)该市一天的空气质量等级分别为1、2、3、4的概率分别为0.43、0.27、0.21、0.09;(2)350;(3)有,理由见解析. 【解析】(1)根据频数分布表可计算出该市一天的空气质量等级分别为1、2、3、4的概率; (2)利用每组的中点值乘以频数,相加后除以100可得结果;(3)根据表格中的数据完善22⨯列联表,计算出2K 的观测值,再结合临界值表可得结论.【详解】(1)由频数分布表可知,该市一天的空气质量等级为1的概率为216250.43100++=,等级为2的概率为510120.27100++=,等级为3的概率为6780.21100++=,等级为4的概率为7200.09100++=; (2)由频数分布表可知,一天中到该公园锻炼的人次的平均数为100203003550045350100⨯+⨯+⨯= (3)22⨯列联表如下:()221003383722 5.820 3.84155457030K ⨯⨯-⨯=≈>⨯⨯⨯,因此,有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.【点睛】本题考查利用频数分布表计算频率和平均数,同时也考查了独立性检验的应用,考查数据处理能力,属于基础题.4.(2020•新全国1山东)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和2SO 浓度(单位:3μg/m ),得下表:(1)估计事件“该市一天空气中PM2.5浓度不超过75,且2SO浓度不超过150”的概率;(2)根据所给数据,完成下面的22⨯列联表:(3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与2SO浓度有关?附:22()()()()()n ad bcKa b c d a c b d-=++++,2()P K k≥0.050 0.010 0.001k 3.841 6.635 10.828 【答案】(1)0.64;(2)答案见解析;(3)有. 【解析】(1)根据表格中数据以及古典概型的概率公式可求得结果;(2)根据表格中数据可得22⨯列联表; (3)计算出2K ,结合临界值表可得结论.【详解】(1)由表格可知,该市100天中,空气中的 2.5PM 浓度不超过75,且2SO 浓度不超过150的天数有32618864+++=天,所以该市一天中,空气中的 2.5PM 浓度不超过75,且2SO 浓度不超过150的概率为640.64100=; (2)由所给数据,可得22⨯列联表为:(3)根据22⨯列联表中的数据可得222()100(64101610)()()()()80207426n ad bc K a b c d a c b d -⨯⨯-⨯==++++⨯⨯⨯36007.4844 6.635481=≈>,因为根据临界值表可知,有99%的把握认为该市一天空气中 2.5PM 浓度与2SO 浓度有关.【点睛】本题考查了古典概型的概率公式,考查了完善22⨯列联表,考查了独立性检验,属于中档题.2016-2019年1.(2017山东)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为ˆˆˆybx a =+.已知101225i i x ==∑,1011600i i y ==∑,ˆ4b =.该班某学生的脚长为24,据此估计其身高为 A .160 B .163 C .166 D .1702.(2018全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1217,,…,)建立模型①:ˆ30.413.5=-+y t ;根据2010年至2016年的数据(时间变量t 的值依次为127,,…,)建立模型②:ˆ9917.5=+y t . (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.3.(2016年全国III)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图(Ⅰ)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明;(Ⅱ)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注:参考数据:719.32ii y==∑,7140.17i i i t y ==∑721()0.55ii y y =-=∑7≈2.646.参考公式:相关系数()()niit t y y r --=∑ 回归方程y a bt =+中斜率和截距的最小二乘估计公式分别为:121()()()niii ni i t t y y b t t ==--=-∑∑,=.a y bt -答案部分1.C 【解析】因为22.5x =,160y =,所以160422.570a =-⨯=,42470166y =⨯+=,选C . 2.【解析】(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为ˆ30.413.519226.1y=-+⨯=(亿元). 利用模型②,该地区2018年的环境基础设施投资额的预测值为ˆ9917.59256.5y=+⨯=(亿元). (2)利用模型②得到的预测值更可靠. 理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线30.413.5y t =-+上下.这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型ˆ9917.5yt =+可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理.说明利用模型②得到的预测值更可靠.以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分. 3.【解析】(Ⅰ)由折线图这数据和附注中参考数据得4=t ,28)(712=-∑=i i t t ,55.0)(712=-∑=i iy y,40.1749.32 2.89==-⨯=,99.0646.2255.089.2≈⨯⨯≈r .因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关相当高,从而可以用线性回归模型拟合y 与t 的关系.(Ⅱ)由331.1732.9≈=y 及(Ⅰ)得71721()()2.89ˆ0.10328()ii i ii tt y y b tt ==--==≈-∑∑, 92.04103.0331.1ˆˆ≈⨯-≈-=t b y a. 所以,y 关于t 的回归方程为:t y10.092.0ˆ+=. 将2016年对应的9=t 代入回归方程得:82.1910.092.0ˆ=⨯+=y. 所以预测2016年我国生活垃圾无害化处理量将约1.82亿吨.。
考点11 回归分析与独立性检验(学生版)
考点11 回归分析与独立性检验概率与统计,是历年高考的必考点,尤其是新高考改革后,各卷都有考查,其主要考查内容有:数字特征与概率的计算问题、随机变量的均值与方差、回归分析与独立性检验、二项分布及其应用等。
例如:2021年全国高考乙卷(文)、(理)[17],2022年全国新高考卷Ⅱ[19],2022年全国乙卷(文)、(理)[19],2022年全国甲卷(文)[17],2022年北京高考[18]等都对数字特征与概率的计算问题进行了考查。
〔1〕回归分析的实际应用1.求回归直线方程(线性回归方程)的一般步骤 (1)画散点图; (2)求回归直线方程; (3)用回归直线方程进行预报。
2.利用回归方程进行预测,把回归直线方程看作一次函数,求函数值。
3.利用回归直线判断正、负相关,决定正相关还是负相关的是系数bˆ。
4.回归方程的拟合效果,可以利用相关系数判断,当||r 越趋近于1时,两变量的线性相关性越强。
〔2〕独立性检验的实际应用 1.独立性检验的一般步骤(1)根据样本数据列出2×2列联表;(2)计算随机变量2K 的观测值k ,查表确定临界值0k ;(3)如果0k k ≥,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过()02k K P ≥;否则,就认为在犯错误的概率不超过()02k K P ≥的前提下不能推断“X 与Y 有关系”,或者在样本数据中没有发现足够证据支持结论“X 与Y有关系”。
2.独立性检验的应用可以利用独立性检验来推断两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度。
具体做法是: (1)根据实际问题需要的可信程度(或容许犯错误概率的上界)确定临界值0k ; (2)利用公式,由观测数据计算得到随机变量2K 的观测值k ;(3)如果0k k ≥,就说有()()%100102⨯≥-k K P 的把握认为“X 与Y 有关系”(或说在犯错误的概率不超过()2k K P ≥的前提下认为“X 与Y 有关系”),否则就说样本观测数据没有提供“X 与Y 有关系”的充分证据(或说在犯错误的概率不超过()02k K P ≥的前提下不能认为“X 与Y 有关系”)。
专题十一《概率与统计》
专题十一概率与统计概率统计抛开了数学中的“确定性”,以“不确定”的视角做出量化的、不确定性的推测,是不同与其它数学知识的重要特征.未来的众多社会规律,也都需要利用概率统计的方法去探究,所以概率统计对社会的良性和稳定发展必将起到至关重要的作用.高考以更加贴近学生日常生活的概率统计背景加强对概率统计知识的考查,也说明了高考改革的方向将更加生活化和理性化,更加贴合学生的日常.这也是提醒我们要自觉养成用“不确定性”眼光去研究生活、看待世界的习惯.一、真题再现(一)统计部分1.(2019年新课标Ⅱ理科)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是()A.中位数B.平均数C.方差D.极差【分析】根据题意,由数据的数字特征的定义,分析可得答案.【解答】解:根据题意,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分,7个有效评分与9个原始评分相比,最中间的一个数不变,即中位数不变,故选:A.【点评】本题考查数据的数字特征,关键是掌握数据的平均数、中位数、方差、极差的定义以及计算方法,属于基础题.2.(2019年新课标Ⅰ文科)某学校为了解1000名新生的身体素质,将这些学生编号1,2,…,1000,从这些新生中用系统抽样方法等距抽取100名学生进行体质测验.若46号学生被抽到,则下面4名学生中被抽到的是()A.8号学生B.200号学生C.616号学生D.815号学生【分析】根据系统抽样的特征,从1000名学生从中抽取一个容量为100的样本,抽样的分段间隔为10,结合从第4组抽取的号码为46,可得第一组用简单随机抽样抽取的号码.【解答】解:∵从1000名学生从中抽取一个容量为100的样本,∴系统抽样的分段间隔为=10,∵46号学生被抽到,则根据系统抽样的性质可知,第一组随机抽取一个号码为6,以后每个号码都比前一个号码增加10,所有号码数是以6为首项,以10为公差的等差数列,设其数列为{a n},则a n=6+10(n﹣1)=10n﹣4,当n=62时,a62=616,即在第62组抽到616.故选:C.【点评】本题考查了系统抽样方法,关键是求得系统抽样的分段间隔.3.(2019年江苏)已知一组数据6,7,8,8,9,10,则该组数据的方差是.【分析】先求出一组数据6,7,8,8,9,10的平均数,由此能求出该组数据的方差.【解答】解:一组数据6,7,8,8,9,10的平均数为:=(6+7+8+8+9+10)=8,∴该组数据的方差为:S2=[(6﹣8)2+(7﹣8)2+(8﹣8)2+(8﹣8)2+(9﹣8)2+(10﹣8)2]=.故答案为:.【点评】本题考查一组数据的方差的求法,考查平均数、方差等基础知识,考查运算求解能力,是基础题.4.(2019年新课标Ⅲ文理科)《西游记》《三国演义》《水浒传》和《红楼梦》是中国古典文学瑰宝,并称为中国古典小说四大名著.某中学为了解本校学生阅读四大名著的情况,随机调查了100位学生,其中阅读过《西游记》或《红楼梦》的学生共有90位,阅读过《红楼梦》的学生共有80位,阅读过《西游记》且阅读过《红楼梦》的学生共有60位,则该校阅读过《西游记》的学生人数与该学校学生总数比值的估计值为()A.0.5B.0.6C.0.7D.0.8【分析】作出维恩图,得到该学校阅读过《西游记》的学生人数为70人,由此能求出该学校阅读过《西游记》的学生人数与该学校学生总数比值的估计值.【解答】解:某中学为了了解本校学生阅读四大名著的情况,随机调查了100位学生,其中阅读过《西游记》或《红楼梦》的学生共有90位,阅读过《红楼梦》的学生共有80位,阅读过《西游记》且阅读过《红楼梦》的学生共有60位,作出维恩图,得:∴该学校阅读过《西游记》的学生人数为70人,则该学校阅读过《西游记》的学生人数与该学校学生总数比值的估计值为:=0.7.故选:C.【点评】本题考查该学校阅读过《西游记》的学生人数与该学校学生总数比值的估计值的求法,考查维恩图的性质等基础知识,考查推理能力与计算能力,属于基础题.5.(2019年新课标Ⅱ文科)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表.y的分组[﹣0.20,0)[0,0.20)[0.20,0.40)[0.40,0.60)[0.60,0.80)企业数22453147(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)附:≈8.602.【分析】(1)根据频数分布表计算即可;(2)根据平均值和标准差计算公式代入数据计算即可.【解答】解:(1)根据产值增长率频数表得,所调查的100个企业中产值增长率不低于40%的企业为:=0.21=21%,产值负增长的企业频率为:=0.02=2%,用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%;(2)企业产值增长率的平均数(﹣0.1×2+0.1×24+0.3×53+0.5×14+0.7×7)=0.3=30%,产值增长率的方差s2==[(﹣0.4)2×2+(﹣0.2)2×24+02×53+0.22×14+0.42×7]=0.0296,∴产值增长率的标准差s=≈0.17,∴这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17.【点评】本题考查了样本数据的平均值和方差的求法,考查运算求解能力,属基础题.6.(2019年新课标Ⅲ文理科)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A、B两组,每组100只,其中A组小鼠给服甲离子溶液,B 组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如图直方图:记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.(1)求乙离子残留百分比直方图中a,b的值;(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).【分析】(1)由频率分布直方图的性质列出方程组,能求出乙离子残留百分比直方图中a,b.(2)利用频率分布直方图能估计甲离子残留百分比的平均值和乙离子残留百分比的平均值.【解答】解:(1)C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.则由频率分布直方图得:,解得乙离子残留百分比直方图中a=0.35,b=0.10.(2)估计甲离子残留百分比的平均值为:=2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05.乙离子残留百分比的平均值为:=3×0.05+4×0.1+5×0.15+6×0.35+7×0.2+8×0.15=6.00.【点评】本题考查频率、平均值的求法,考查频率分布直方图的性质等基础知识,考查推理能力与计算能力,属于基础题.7.(2019年新课标Ⅰ文科)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:满意不满意男顾客4010女顾客3020(1)分别估计男、女顾客对该商场服务满意的概率;(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?附:K2=.P(K2≥k)0.0500.0100.001 k 3.841 6.63510.828【分析】(1)由题中数据,结合等可能事件的概率求解;(2)代入计算公式:K2=,然后把所求数据与3.841进行比较即可判断.【解答】解:(1)由题中数据可知,男顾客对该商场服务满意的概率P==,女顾客对该商场服务满意的概率P==;(2)由题意可知,K2==≈4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.【点评】本题主要考查了等可能事件的概率求解及独立性检验的基本思想的应用,属于基础试题.(二)概率部分1.(2019年江苏)从3名男同学和2名女同学中任选2名同学参加志愿者服务,则选出的2名同学中至少有1名女同学的概率是.【分析】基本事件总数n==10,选出的2名同学中至少有1名女同学包含的基本事件个数m=+=7,由此能求出选出的2名同学中至少有1名女同学的概率.【解答】解:从3名男同学和2名女同学中任选2名同学参加志愿者服务,基本事件总数n==10,选出的2名同学中至少有1名女同学包含的基本事件个数:m=+=7,∴选出的2名同学中至少有1名女同学的概率是p=.故答案为:.【点评】本题考查概率的求法,考查古典概型、排列组合等基础知识,考查运算求解能力,考查数形结合思想,是基础题.2.(2019年新课标Ⅲ文科)两位男同学和两位女同学随机排成一列,则两位女同学相邻的概率是()A.B.C.D.【分析】利用古典概型求概率原理,首先用捆绑法将两女生捆绑在一起作为一个人排列找出分子,再全部排列找到分母,可得到答案.【解答】解:方法一:用捆绑法将两女生捆绑在一起作为一个人排列,有A33A22=12种排法,再所有的4个人全排列有:A44=24种排法,利用古典概型求概率原理得:p==,方法二:假设两位男同学为A、B,两位女同学为C、D,所有的排列情况有24种,如下:(ABCD)(ABDC)(ACBD)(ACDB)(ADCB)(ADBC)(BACD)(BADC)(BCAD)(BCDA)(BDAC)(BDCA)(CABD)(CADB)(CBAD)(CBDA)(CDAB)(CDBA)(DABC)(DACB)(DBAC)(DBCA)(DCAB)(DCBA)其中两位女同学相邻的情况有12种,分别为(ABCD)、(ABDC)、(ACDB)、(ADCB)、(BACD)、(BADC)、(BCDA)、(BDCA)、(CDAB)、(CDBA)、(DCAB)、(DCBA),故两位女同学相邻的概率是:p==,故选:D.【点评】本题考查排列组合的综合应用.考查古典概型的计算.3.(2019年新课标Ⅰ理科)我国古代典籍《周易》用“卦”描述万物的变化.每一“重卦”由从下到上排列的6个爻组成,爻分为阳爻“”和阴爻“”,如图就是一重卦.在所有重卦中随机取一重卦,则该重卦恰有3个阳爻的概率是()A.B.C.D.【分析】基本事件总数n=26=64,该重卦恰有3个阳爻包含的基本个数m==20,由此能求出该重卦恰有3个阳爻的概率.【解答】解:在所有重卦中随机取一重卦,基本事件总数n=26=64,该重卦恰有3个阳爻包含的基本个数m==20,则该重卦恰有3个阳爻的概率p===.故选:A.【点评】本题考查概率的求法,考查古典概型、排列组合等基础知识,考查运算求解能力,是基础题.4.(2019年新课标Ⅱ文科)生物实验室有5只兔子,其中只有3只测量过某项指标.若从这5只兔子中随机取出3只,则恰有2只测量过该指标的概率为()A.B.C.D.【分析】本题根据组合的概念可知从这5只兔子中随机取出3只的所有情况数为,恰有2只测量过该指标是从3只侧过的里面选2,从未测的选1,组合数为.即可得出概率.【解答】解:法一:由题意,可知:根据组合的概念,可知:从这5只兔子中随机取出3只的所有情况数为,恰有2只测量过该指标的所有情况数为.∴p==.法二:设其中做过测试的3只兔子为a,b,c,剩余的2只为A,B,则从这5只中任取3只的所有取法有{a,b,c},{a,b,A},{a,b,B},{a,c,A},{a,c,B},{a,A,B},{b,c,A},{b,c,B},{b,A,B},{c,A,B}10种,其中恰好有两只做过测试的取法有{a,b,A},{a,b,B},{a,c,A},{a,c,B},{b,c,A},{b,c,B}6种,故恰有两只做过测试的概率为=.故选:B.【点评】本题主要考查组合的相关概念及应用以及简单的概率知识,本题属基础题.5.(2019年新课标Ⅰ理科)甲、乙两队进行篮球决赛,采取七场四胜制(当一队赢得四场胜利时,该队获胜,决赛结束).根据前期比赛成绩,甲队的主客场安排依次为“主主客客主客主”.设甲队主场取胜的概率为0.6,客场取胜的概率为0.5,且各场比赛结果相互独立,则甲队以4:1获胜的概率是0.18.【分析】甲队以4:1获胜包含的情况有:①前5场比赛中,第一场负,另外4场全胜,②前5场比赛中,第二场负,另外4场全胜,③前5场比赛中,第三场负,另外4场全胜,④前5场比赛中,第四场负,另外4场全胜,由此能求出甲队以4:1获胜的概率.【解答】解:甲队的主客场安排依次为“主主客客主客主”.设甲队主场取胜的概率为0.6,客场取胜的概率为0.5,且各场比赛结果相互独立,甲队以4:1获胜包含的情况有:①前5场比赛中,第一场负,另外4场全胜,其概率为:p1=0.4×0.6×0.5×0.5×0.6=0.036,②前5场比赛中,第二场负,另外4场全胜,其概率为:p2=0.6×0.4×0.5×0.5×0.6=0.036,③前5场比赛中,第三场负,另外4场全胜,其概率为:p3=0.6×0.6×0.5×0.5×0.6=0.054,④前5场比赛中,第四场负,另外4场全胜,其概率为:p4=0.6×0.6×0.5×0.5×0.6=0.054,则甲队以4:1获胜的概率为:p=p1+p2+p3+p4=0.036+0.036+0.054+0.054=0.18.故答案为:0.18.【点评】本题考查概率的求法,考查相互独立事件概率乘法公式等基础知识,考查运算求解能力,是基础题.6.(2019年上海)某三位数密码,每位数字可在0﹣9这10个数字中任选一个,则该三位数密码中,恰有两位数字相同的概率是.【分析】分别运用直接法和排除法,结合古典概率的公式,以及计数的基本原理:分类和分步,计算可得所求值.【解答】解:方法一、(直接法)某三位数密码锁,每位数字在0﹣9数字中选取,总的基本事件个数为1000,其中恰有两位数字相同的个数为C C=270,则其中恰有两位数字相同的概率是=;方法二、(排除法)某三位数密码锁,每位数字在0﹣9数字中选取,总的基本事件个数为1000,其中三位数字均不同和全相同的个数为10×9×8+10=730,可得其中恰有两位数字相同的概率是1﹣=.故答案为:.【点评】本题考查古典型概率的求法,注意运用直接法和排除法,考查排列组合数的求法,以及运算能力,属于基础题.7.(2019年新课标Ⅱ理科)11分制乒乓球比赛,每赢一球得1分,当某局打成10:10平后,每球交换发球权,先多得2分的一方获胜,该局比赛结束.甲、乙两位同学进行单打比赛,假设甲发球时甲得分的概率为0.5,乙发球时甲得分的概率为0.4,各球的结果相互独立.在某局双方10:10平后,甲先发球,两人又打了X个球该局比赛结束.(1)求P(X=2);(2)求事件“X=4且甲获胜”的概率.【分析】(1)设双方10:10平后的第k个球甲获胜为事件A k(k=1,2,3,…),则P (X=2)=P(A1A2)+P()=P(A1)P(A2)+P()P(),由此能求出结果.(2)P(X=4且甲获胜)=P(X=4且甲获胜)=P()+P()=P(A1)P()P(A3)P(A4)+P()P(A2)P(A3)P(A4),由此能求出事件“X=4且甲获胜”的概率.【解答】解:(1)设双方10:10平后的第k个球甲获胜为事件A k(k=1,2,3,…),则P(X=2)=P(A1A2)+P()=P(A1)P(A2)+P()P()=0.5×0.4+0.5×0.6=0.5.(2)P(X=4且甲获胜)=P()+P()=P(A1)P()P(A3)P(A4)+P()P(A2)P(A3)P(A4)=0.5×0.6×0.5×0.4+0.5×0.4×0.5×0.4=0.1.【点评】本题考查概率的求法,考查相互独立事件概率乘法公式等基础知识,考查推理能力与计算能力,是中档题.8.(2019年天津文科)2019年,我国施行个人所得税专项附加扣除办法,涉及子女教育、继续教育、大病医疗、住房贷款利息或者住房租金、赡养老人等六项专项附加扣除.某单位老、中、青员工分别有72,108,120人,现采用分层抽样的方法,从该单位上述员工中抽取25人调查专项附加扣除的享受情况.(Ⅰ)应从老、中、青员工中分别抽取多少人?(Ⅱ)抽取的25人中,享受至少两项专项附加扣除的员工有6人,分别记为A,B,C,D,E,F.享受情况如表,其中“〇”表示享受,“×”表示不享受.现从这6人中随机抽取2人接受采访.A B C D E F子女教育〇〇×〇×〇继续教育××〇×〇〇大病医疗×××〇××住房贷款利息〇〇××〇〇住房租金××〇×××赡养老人〇〇×××〇(i)试用所给字母列举出所有可能的抽取结果;(ii)设M为事件“抽取的2人享受的专项附加扣除至少有一项相同”,求事件M发生的概率.【分析】(Ⅰ)根据分层抽样各层所抽比例相等可得结果;(Ⅱ)(i)用列举法求出基本事件数;(ii)用列举法求出事件M所含基本事件数以及对应的概率;【解答】解:(Ⅰ)由已知,老、中、青员工人数之比为6:9:10,由于采用分层抽样从中抽取25位员工,因此应从老、中、青员工中分别抽取6人,9人,10人;(Ⅱ)(i)从已知的6人中随机抽取2人的所有可能结果为{A,B},{A,C},{A,D},{A,E},{A,F},{B,C},{B,D},{B,E},{B,F},{C,D},{C,E},{C,F},{D,E},{D,F},{E,F},共15种;(ii)由表格知,符合题意的所有可能结果为{A,B},{A,D},{A,E},{A,F},{B,D},{B,E},{B,F},{C,E},{C,F},{D,F},{E,F},共11种,所以,事件M发生的概率P(M )=.【点评】本题考查了用列举法求古典概型的概率问题以及根据数据分析统计结论的问题,是基础题目9.(2019年北京文科)改革开放以来,人们的支付方式发生了巨大转变.近年来,移动支付已成为主要支付方式之一.为了解某校学生上个月A,B两种移动支付方式的使用情况,从全校所有的1000名学生中随机抽取了100人,发现样本中A,B两种支付方式都不使用的有5人,样本中仅使用A和仅使用B的学生的支付金额分布情况如下:不大于2000元大于2000元仅使用A27人3人仅使用B24人1人(Ⅰ)估计该校学生中上个月A,B两种支付方式都使用的人数;(Ⅱ)从样本仅使用B的学生中随机抽取1人,求该学生上个月支付金额大于2000元的概率;(Ⅲ)已知上个月样本学生的支付方式在本月没有变化.现从样本仅使用B的学生中随机抽查1人,发现他本月的支付金额大于2000元.结合(Ⅱ)的结果,能否认为样本仅使用B的学生中本月支付金额大于2000元的人数有变化?说明理由.【分析】(Ⅰ)从全校所有的1000名学生中随机抽取的100人中,A,B两种支付方式都不使用的有5人,仅使用A的有30人,仅使用B的有25人,求出A,B两种支付方式都使用的人数有40人,由此能估计该校学生中上个月A,B两种支付方式都使用的人数.(Ⅱ)从样本仅使用B的学生有25人,其中不大于2000元的有24人,大于2000元的有1人,从中随机抽取1人,基本事件总数n=25,该学生上个月支付金额大于2000元包含的基本事件个数m=1,由此能求出该学生上个月支付金额大于2000元的概率.(Ⅲ)从样本仅使用B的学生中随机抽查1人,发现他本月的支付金额大于2000元的概率为,虽然概率较小,但发生的可能性为.不能认为样本仅使用B的学生中本月支付金额大于2000元的人数有变化.【解答】解:(Ⅰ)由题意得:从全校所有的1000名学生中随机抽取的100人中,A,B两种支付方式都不使用的有5人,仅使用A的有30人,仅使用B的有25人,∴A,B两种支付方式都使用的人数有:100﹣5﹣30﹣25=40,∴估计该校学生中上个月A,B两种支付方式都使用的人数为:1000×=400人.(Ⅱ)从样本仅使用B的学生有25人,其中不大于2000元的有24人,大于2000元的有1人,从中随机抽取1人,基本事件总数n=25,该学生上个月支付金额大于2000元包含的基本事件个数m=1,∴该学生上个月支付金额大于2000元的概率p==.(Ⅲ)不能认为样本仅使用B的学生中本月支付金额大于2000元的人数有变化,理由如下:上个月样本学生的支付方式在本月没有变化.现从样本仅使用B的学生中随机抽查1人,发现他本月的支付金额大于2000元的概率为,虽然概率较小,但发生的可能性为.故不能认为样本仅使用B的学生中本月支付金额大于2000元的人数有变化.【点评】本题考查频数、概率的求法,考查频数分布表、概率等基础知识,考查推理能力与计算能力,属于基础题.(三)随机变量部分1.(2019年新课标Ⅱ文理科)我国高铁发展迅速,技术先进.经统计,在经停某站的高铁列车中,有10个车次的正点率为0.97,有20个车次的正点率为0.98,有10个车次的正点率为0.99,则经停该站高铁列车所有车次的平均正点率的估计值为0.98.【分析】利用加权平均数公式直接求解.【解答】解:∵经统计,在经停某站的高铁列车中,有10个车次的正点率为0.97,有20个车次的正点率为0.98,有10个车次的正点率为0.99,∴经停该站高铁列车所有车次的平均正点率的估计值为:=(10×0.97+20×0.98+10×0.99)=0.98.故答案为:0.98.【点评】本题考查经停该站高铁列车所有车次的平均正点率的估计值的求法,考查加权平均数公式等基础知识,考查推理能力与计算能力,属于基础题.2.(2019年浙江)设0<a<1.随机变量X的分布列是X0a1P则当a在(0,1)内增大时,()A.D(X)增大B.D(X)减小C.D(X)先增大后减小D.D(X)先减小后增大【分析】方差公式结合二次函数的单调性可得结果【解答】解:E(X)=0×+a×+1×=,D(X)=()2×+(a﹣)2×+(1﹣)2×=[(a+1)2+(2a﹣1)2+(a﹣2)2]=(a2﹣a+1)=(a﹣)2+∵0<a<1,∴D(X)先减小后增大故选:D.【点评】本题考查方差的求法,利用二次函数的单调性是关键,考查推理能力与计算能力,是中档题.3.(2019年天津理科)设甲、乙两位同学上学期间,每天7:30之前到校的概率均为.假定甲、乙两位同学到校情况互不影响,且任一同学每天到校情况相互独立.(Ⅰ)用X表示甲同学上学期间的三天中7:30之前到校的天数,求随机变量X的分布列和数学期望;(Ⅱ)设M为事件“上学期间的三天中,甲同学在7:30之前到校的天数比乙同学在7:30之前到校的天数恰好多2”,求事件M发生的概率.【分析】(I)甲上学期间的三天中到校情况相互独立,且每天7:30之前到校的概率均为,故X~B(),可求分布列及期望;(II)设乙同学上学期间的三天中7:30到校的天数为Y,则Y~B(3,),且M={X =3,Y=1}∪{X=2,Y=0},由题意知{X=3,Y=1}与{X=2,Y=0}互斥,且{X=3}与{Y=1},{X=2}与{Y=0}相互独立,利用相互对立事件的个概率公式可求【解答】解:(I)甲上学期间的三天中到校情况相互独立,且每天7:30之前到校的概率均为,故X~B(3,),从而P(X=k )=,k=0,1,2,3.所以,随机变量X的分布列为:X0123P随机变量X的期望E(X)=3×=2.(II)设乙同学上学期间的三天中7:30到校的天数为Y,则Y~B(3,),且M={X=3,Y=1}∪{X=2,Y=0},由题意知{X=3,Y=1}与{X=2,Y=0}互斥,且{X=3}与{Y=1},{X=2}与{Y=0}相互独立,由(I)知,P(M)=P({X=3,Y=1}∪{X=2,Y=0}=P({X=3,Y=1}+P{X=2,Y =0}=P(X=3)P(Y=1)+P(X=2)P(Y=0)==【点评】本题主要考查了离散型随机变量的分布列与期望,互斥事件与相互独立事件的概率计算公式,考查运算概率公式解决实际问题的能力.4.(2019年北京理科)改革开放以来,人们的支付方式发生了巨大转变.近年来,移动支付已成为主要支付方式之一.为了解某校学生上个月A,B两种移动支付方式的使用情况,从全校学生中随机抽取了100人,发现样本中A,B两种支付方式都不使用的有5人,样本中仅使用A和仅使用B的学生的支付金额分布情况如下:(0,1000](1000,2000]大于2000仅使用A18人9人3人仅使用B10人14人1人(Ⅰ)从全校学生中随机抽取1人,估计该学生上个月A,B两种支付方式都使用的概率;(Ⅱ)从样本仅使用A和仅使用B的学生中各随机抽取1人,以X表示这2人中上个月支付金额大于1000元的人数,求X的分布列和数学期望;(Ⅲ)已知上个月样本学生的支付方式在本月没有变化.现从样本仅使用A的学生中,随机抽查3人,发现他们本月的支付金额都大于2000元.根据抽查结果,能否认为样本仅使用A的学生中本月支付金额大于2000元的人数有变化?说明理由.【分析】(Ⅰ)从全校所有学生中随机抽取的100人中,A,B两种支付方式都不使用的有5人,仅使用A的有30人,仅使用B的有25人,从而A,B两种支付方式都使用的人数有40人,由此能求出从全校学生中随机抽取1人,估计该学生上个月A,B两种支付方式都使用的概率.(Ⅱ)记事件E为“从样本仅使用A的学生中随机抽查3人,他们本月的支付金额都大于2000元”,求出P(E)=,答案示例1:可以认为有变化.P(E)比较小,概率比较小的事件一般不容易发生,一旦发生,就有理由认为本月的支付金额发生了变化,可以认为有变化.答案示例2:无法确定有没有变化.事件E是随机事件,P(E)比较小,一般不容易发生,但还是有可能发生,无法确定有没有变化.【解答】解:(Ⅰ)由题意得:从全校所有学生中随机抽取的100人中,A,B两种支付方式都不使用的有5人,仅使用A的有30人,仅使用B的有25人,∴A,B两种支付方式都使用的人数有:100﹣5﹣30﹣25=40,∴从全校学生中随机抽取1人,估计该学生上个月A,B两种支付方式都使用的概率p==0.4.(Ⅱ)从样本仅使用A和仅使用B的学生中各随机抽取1人,以X表示这2人中上个月支付金额大于1000元的人数,则X的可能取值为0,1,2,样本仅使用A的学生有30人,其中支付金额在(0,1000]的有18人,超过1000元的有12人,样本仅使用B的学生有25人,其中支付金额在(0,1000]的有10人,超过1000元的有15人,P(X=0)===,P(X=1)===,P(X=2)===,∴X的分布列为:X012P数学期望E(X)==1.(Ⅲ)记事件E为“从样本仅使用A的学生中随机抽查3人,他们本月的支付金额都大于2000元”,假设样本仅使用A的学生中,本月支付金额额大于2000元的人数没有变化,则由上个月的样本数据得P(E)==,答案示例1:可以认为有变化,理由如下:P(E)比较小,概率比较小的事件一般不容易发生,一旦发生,就有理由认为本月的支付金额发生了变化,∴可以认为有变化.答案示例2:无法确定有没有变化,理由如下:事件E是随机事件,P(E)比较小,一般不容易发生,但还是有可能发生,∴无法确定有没有变化.【点评】本题考查概率、离散型随机变量的分布列、数学期望的求法,考查古典概型、相互独立事件概率乘法公式等基础知识,考查推理能力与计算能力,是中档题.5.(2019年新课标Ⅰ理科)为治疗某种疾病,研制了甲、乙两种新药,希望知道哪种新药更有效,为此进行动物试验.试验方案如下:每一轮选取两只白鼠对药效进行对比试验.对于两只白鼠,随机选一只施以甲药,另一只施以乙药.一轮的治疗结果得出后,再安排下一轮试验.当其中一种药治愈的白鼠比另一种药治愈的白鼠多4只时,就停止试验,并认为治愈只数多的药更有效.为了方便描述问题,约定:对于每轮试验,若施以甲药的白鼠治愈且施以乙药的白鼠未治愈则甲药得1分,乙药得﹣1分;若施以乙药的白鼠治愈且施以甲药的白鼠未治愈则乙药得1分,甲药得﹣1分;若都治愈或都未治愈则两种药均得0分.甲、乙两种药的治愈率分别记为α和β,一轮试验中甲药的得分记为X.(1)求X的分布列;(2)若甲药、乙药在试验开始时都赋予4分,p i(i=0,1,…,8)表示“甲药的累计得分为i时,最终认为甲药比乙药更有效”的概率,则p0=0,p8=1,p i=ap i﹣1+bp i+cp i+1。
高考真题——回归分析和独立性检验
高考真题——回归分析和独立性检验副标题一、选择题(本大题共9小题,共45.0分)1.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:已知在全部105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的是()参考公式:K2=附表:列联表中c的值为30,b的值为35B. 列联表中c的值为15,b的值为50C. 根据列联表中的数据,若按的可靠性要求,能认为“成绩与班级有关系”D. 根据列联表中的数据,若按的可靠性要求,不能认为“成绩与班级有关系”2.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是()表1表2表3表4成绩视力 C. 智商 D. 阅读量3.下列两个变量中具有相关关系的是()A. 正方形的面积与边长B. 匀速行驶的车辆的行驶距离与时间C. 人的身高与体重D. 人的身高与视力4.下列说法:①将一组数据中的每一个数据都加上或减去同一个常数后,方差不变;②设有一个线性回归方程=3-5x,变量x增加1个单位时,y平均增加5个单位;③线性回归方程=x+必过(,);④设具有相关关系的两个变量x,y的相关系数为r,则|r|越接近于0,x和y之间的线性相关程度越高;⑤在一个2×2列联表中,由计算得K2的值,则K2的值越大,判断两个变量间有关联的把握就越大.其中错误的个数是()A. 0B. 1C. 2D. 35.某次考试,班主任从全班同学中随机抽取一个容量为8的样本,他们的数学、物理分数对应如下表:绘出散点图如下:根据以上信息,判断下列结论:①根据此散点图,可以判断数学成绩与物理成绩具有线性相关关系;②根据此散点图,可以判断数学成绩与物理成绩具有一次函数关系;③甲同学数学考了80分,那么,他的物理成绩一定比数学只考了60分的乙同学的物理成绩要高.其中正确的个数为A. 0B. 3C. 2D. 16.有人认为在机动车驾驶技术上,男性优于女性.这是真的么?某社会调查机构与交警合作随机统计了经常开车的100名驾驶员最近三个月内是否有交通事故或交通违法事件发生,得到下面的列联表:附:K2=据此表,可得()A. 认为机动车驾驶技术与性别有关的可靠性不足B. 认为机动车驾驶技术与性别有关的可靠性超过C. 认为机动车驾驶技术与性别有关的可靠性不足D. 认为机动车驾驶技术与性别有关的可靠性超过7.如图是相关变量x,y的散点图,现对这两个变量进行线性相关分析,方案一:根据图中所有数据,得到线性回归方程y=b1x+a1,相关系数为r1;方案二:剔除点(10,21),根据剩下数据得到线性回归直线方程y=b2x+a2,相关系数为r2.则()A. B. C. D.8.由K2=得K2=≈8.333>7.879A. 有以上的把握认为“爱好该项运动与性别有关”B. 有以上的把握认为“爱好该项运动与性别无关”C. 在犯错误的概率不超过的前提下,认为“爱好该项运动与性别有关”D. 在犯错误的概率不超过的前提下,认为“爱好该项运动与性别无关”9.有五组变量:①汽车的重量和汽车每消耗1升汽油所行驶的平均路程;②平均日学习时间和平均学习成绩;③某人每日吸烟量和身体健康情况;④圆的半径与面积;⑤汽车的重量和每千米耗油量.其中两个变量成正相关的是()A. ①③B. ②④C. ②⑤D. ④⑤二、填空题(本大题共1小题,共5.0分)10.高三年级267位学生参加期末考试,某班37位学生的语文成绩,数学成绩与总成绩在全年级的排名情况如图所示,甲、乙、丙为该班三位学生。
高考数学专题《概率与统计》解读含答案解析
重难点04 概率与统计新高考概率与统计主要考查统计分析、变量的相关关系,独立性检验、用样本估计总体及其特征的思想,以排列组合为工具,考查对五个概率事件的判断识别及其概率的计算。
试题考查特点是以实际应用问题为载体,小题部分主要是考查排列组合与古典概型,解答题部分主要考查独立性检验、超几何分布、离散型分布以及正态分布对应的数学期望以及方差。
概率的应用立意高,情境新,赋予时代气息,贴近学生的实际生活。
取代了传统意义上的应用题,成为高考中的亮点。
解答题中概率与统计的交汇是近几年考查的热点趋势,应该引起关注。
求解概率问题首先确定是何值概型再用相应公式进行计算,特别对于解互斥事件(独立事件)的概率时,要注意两点:(1)仔细审题,明确题中的几个事件是否为互斥事件(独立事件),要结合题意分析清楚这些事件互斥(独立)的原因;(2)要注意所求的事件是包含这些互斥事件(独立事件)中的哪几个事件的和(积),如果不符合以上两点,就不能用互斥事件的和的概率.离散型随机变量的均值和方差是概率知识的进一步延伸,是当前高考的热点内容.解决均值和方差问题,都离不开随机变量的分布列,另外在求解分布列时还要注意分布列性质的应用.捆绑法:题目中规定相邻的几个元素捆绑成一个组,当作一个大元素参与排列。
相离问题插空排:元素相离(即不相邻)问题,可先把无位置要求的几个元素全排列,再把规定的相离的几个元素插入上述几个元素的空位和两端。
定序问题缩倍法:在排列问题中限制某几个元素必须保持一定的顺序,可用缩小倍数的方法。
标号排位问题分步法:把元素排到指定位置上,可先把某个元素按规定排入,第二步再排另一个元素,如此继续下去,依次即可完成。
有序分配问题逐分法:有序分配问题指把元素分成若干组,可用逐步下量分组法。
对于二项式定理的应用,只要会求对应的常数项以及对应的n项即可,但是应注意是二项式系数还是系数。
新高考统计主要考查统计分析、变量的相关关系,独立性检验、用样本估计总体及其特征的思想,以排列组合为工具,考查对五个概率事件的判断识别及其概率的计算。
高考数学一轮复习 第十一章概率与统计11.9《回归分析与独立性检验》收尾精炼 理 新人教A版.pdf
2014届高考一轮复习收尾精炼: 回归分析与独立性检验 一、选择题 1.下面是一个2×2列联表: y1y2合计x1a2173x2222547合计b46120则表中a,b的值分别为( ). A.94,72 B.52,50 C.52,74 D.74,52 2.对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图1;对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图2.由这两个散点图可以判断( ). 图1 图2 A.变量x与y正相关,u与v正相关 B.变量x与y正相关,u与v负相关 C.变量x与y负相关,u与v正相关 D.变量x与y负相关,u与v负相关 3.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( ). A.若K2的观测值为6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99个患有肺病 B.由独立性检验知,有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患肺病 C.若统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误 D.以上三种说法都不正确 4.下列说法: 将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变; 设有一个回归方程=3-5x,变量x增加一个单位时,y平均增加5个单位; 回归直线方程=x+必过点(,); 有一个2×2列联表中,由计算得K2的观测值k=13.079,则有99.9%的把握认为这两个变量间有关系.其中错误的个数是( ). A.0 B.1 C.2 D.3 本题可以参考独立性检验临界值表:P(K2≥k)0.50.400.250.150.100.050.0250.0100.0050.001k0.4550.7081.3232.0722.7063.8415.0246.6357.87910.8285 .甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表: 甲乙丙丁r0.820.780.690.85m106115124103则哪位同学的试验结果体现A,B两变量更强的线性相关性( ). A.甲 B.乙 C.丙 D.丁 6.某产品的广告费用x与销售额y的统计数据如下表: 广告费用x/万元4235销售额y/万元49263954根据上表可得回归方程=x+中的为9.4,据此模型预报广告费用为6万元时销售额为( ). A.63.6万元 B.65.5万元 C.67.7万元 D.72.0万元 7. 设(x1,y1),(x2,y2),…,(xn,yn)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论中正确的是( ). A.x和y的相关系数为直线l的斜率 B.x和y的相关系数在0到1之间 C.当n为偶数时,分布在l两侧的样本点的个数一定相同 D.直线l过点(,) 二、填空题 8.为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如下2×2列联表: 理科文科合计男131023女72027合计203050已知P(K2≥3. 841)≈0.05,P(K2≥5.024)≈0.025. 根据表中数据,得到K2的观测值k=≈4.844,则认为选修文科与性别有关系出错的可能性约为__________. 9.某单位为了了解用电量y(千瓦时)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表: 气温/℃181310-1用电量/千瓦时24343864由表中数据得线性回归方程=x+中=-2,预测当气温为-4 ℃时,用电量约为________千瓦时. 10.某市居民2007~2011年家庭年平均收入x(单位:万元)与年平均支出Y(单位:万元)的统计资料如下表所示: 年份/年20072008200920102011收入x/万元11. 512.11313.315支出Y/万元6.88.89.81012根据统计资料,居民家庭年平均收入的中位数是__________,家庭年平均收入与年平均支出有__________线性相关关系. 三、解答题 11.(2012辽宁高考)电视传媒公司为了解某地区观众对某类体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图: 将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性. (1)根据已知条件完成下面的2×2列联表,并据此资料你是否认为“体育迷”与性别有关? 非体育迷体育迷合计男女合计(2)将日均收看该体育节目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性.若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率. 附:K2=. P(K2≥k)0.05 0.01k3.841 6.63512.为了比较注射A,B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.下表1和表2分别是注射药物A和药物B后的试验结果.(疱疹面积单位:mm2) 表1:注射药物A后皮肤疱疹面积的频数分布表 疱疹面积[60,65)[65,70)[70,75)[75,80)频数30402010表2:注射药物B后皮肤疱疹面积的频数分布表 疱疹面积[60,65)[65,70)[70,75)[75, 80)[80,85)频数1025203015(1)完成下面频率分布直方图,并比较注射两种药物后疱疹面积的中位数大小; 图1 注射药物A后皮肤疱疹面积的频率分布直方图 图2 注射药物B后皮肤疱疹面积的频率分布直方图 (2)完成下面2×2列联表,并回答能否有99.9%的把握认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”. 表3: 疱疹面积小于70 mm2疱疹面积不小于70 mm2合计注射药物Aa=b=注射药物Bc=d=合计n=附:K2= P(K2≥k)0.1000.0500.0250.0100.001k2.7063.8415.0246.63510.828参考答案 一、选择题 1.C 解析:∵a+21=73, ∴a=52. 又a+22=b,∴b=74. 2.C 3.C 4.B 解析:一组数据都加上或减去同一个常数,数据的平均数有变化,方差不变(方差是反映数据的波动程度的量),①正确;回归方程中x的系数具备直线斜率的功能,对于回归直线方程=3-5x,当x增加一个单位时,y平均减少5个单位,②错误;由线性回归方程的定义知,线性回归方程=x+必过点(,),③正确;因为K2的观测值k=13.079>10.828,故有99.9%的把握认为这两个变量有关系,④正确. 5.D 解析:丁同学所得相关系数r最大,残差平方和m最小,所以A,B两变量线性相关性更强. 6.B 解析:样本中心点是(3.5,42),则=-=42-9.4×3.5=9.1, 所以回归直线方程是=9.4x+9.1,把x=6代入得=65.5. 7.D 解析:A中,相关系数不是l的斜率; B中,x和y负相关; C中,样本点的个数分布无规律;D正确. 二、填空题 8.5% 解析:由K2的观测值k≈4.844>3.841,故认为选修文科与性别有关系出错的可能性约为5%. 9.68 解析:=10,=40, ∵回归方程过点(,), ∴40=-2×10+ . ∴ =60.∴=-2x+60. 令x=-4, 得=(-2)×(-4)+60=68. 10.13万元 正 解析:根据中位数的定义,居民家庭年平均收入的中位数是13万元,家庭年平均收入与年平均支出有正线性相关关系. 三、解答题 11.解:(1)由频率分布直方图可知,在抽取的100人中,“体育迷”为25人,从而完成2×2列联表如下: 非体育迷体育迷合计男301545女451055合计7525100将2×2列联表中的数据代入公式计算,得 K2的观测值 k==≈3.030. 因为3.030<3.841,所以我们没有理由认为“体育迷”与性别有关. (2)由频率分布直方图可知,“超级体育迷”为5人,从而一切可能结果所组成的基本事件空间为Ω={(a1,a2),(a1,a3),(a2,a3),(a1,b1),(a1,b2),(a2,b1),(a2,b2),(a3,b1),(a3,b2),(b1,b2)}. 其中ai表示男性,i=1,2,3.bj表示女性,j=1,2. Ω由10个基本事件组成,而且这些基本事件的出现是等可能的. 用A表示“任选2人中,至少有1人是女性”这一事件,则 A={(a1,b1),(a1,b2),(a2,b1),(a2,b2),(a3,b1),(a3,b2),(b1,b2)}, 事件A由7个基本事件组成,因而 P(A)=. 12.解:(1) 图1 注射药物A后皮肤疱疹面积的频率分布直方图 图2 注射药物B后皮肤疱疹面积的频率分布直方图 可以看出注射药物A后的疱疹面积的中位数在65至70之间,而注射药物B后的疱疹面积的中位数在70至75之间,所以注射药物A后疱疹面积的中位数小于注射药物B后疱疹面积的中位数. (2)表3: 疱疹面积小于70 mm2疱疹面积不小于70 mm2合计注射药物Aa=70b=30100注射药物Bc=35d=65100合计10595n=200k=≈24.56, 由于k>10.828,所以有99.9%的把握认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”.。
【高考数学总复习】:回归性分析与独立性检验(知识点讲解+真题演练+详细解答)
量,例如某同学的数学成绩与化学成绩。
2.线性回归分析 (1) 散点图:将样本中的各对数据在直角坐标系中描点而得到的图形叫做散点图,它直观地 描述了两个变量之间是否有相关关系,是判断两个变量相关性的重要依据。 (2) 回归直线:散点图中点的整体分布在一条直线左右,则称这两个变量之间具有线性相关
(a b)(c d)(a c)(b d )
通过对统计量 K2 的研究,一般情况下认为:
①当 K 2 ≤3.841 时,认为变量 X 与 Y 是无关的。
②当 K 2 >3.841 时,有 95%的把握说变量 X 与 Y 有关;
④ 当 K 2 >6.635 时,有 99%的把握说变量 X 与 Y 有关;
定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。
2.分类变量的理解: 分类变量是说明事物类别的一个名称,其取值是分类数据。如“性别”就是一个分类变 量,其变量值为“男”或“女”;“行业”也是一个分类变量,其变量值可以为“零售 业”,说明 X 与 Y 无关的把握越小
6. 右表是对与喜欢足球与否的统计列联表依据表中的数据,得到( )
A. K 2 9.564 B. K 2 3.564 C. K 2 2.706 D. K 2 3.841
7. 对两个分类变量 A、B 的下列说法中正确的个数为( ). ①A 与 B 无关,即 A 与 B 互不影响;②A 与 B 关系越密切,则 K2 的值就越大;③K2
x yw
46.6 563 6.8
8
(xi x )2
i 1
高考数学一轮复习题库:第十一章概率与统计11.9回归分析与独立性检验
5.甲、乙、丙、丁四位同学各 自对 A,B 两变量的线性相关性做试验,并用回归分析方 法分别求得相关系数 r 与残差平方和 m 如下表:
甲
乙
丙
丁Hale Waihona Puke r 0.82 0.78 0.69 0.85
m 106 115 124 103
则哪位同学的试验结果体现 A,B 两变量更强的线性相关性 ( ).
A.甲
随机抽取了 100 名观
众进行调查,其中女性有 55 名.下面是根据调查结果绘制的观众日均收看该体育节目时间
的频率分布直方图:
将日均收看该体育节 目时间不低于 40 分钟的观众称为“体育迷”,已知“体育迷”中 有 10 名女性.
(1)根据已知条件完成下面的 2× 2 列联表,并据此资料你是否认为“体育迷”与性别有 关?
年份 /年
2007 2008 2009 2010 2011
收入 x/万元
11.5 12.1
13
13.3
15
支出 Y/万元
6.8
8.8
9.8
10
12
根据统计资料, 居民家庭年平均收入的中位数是 __________ ,家庭年平均收入与年平均
支出有 __________ 线性相关关系.
三、解答题
11.电视传媒公司为了解某地区观众对某类体育节目的收视情况,
非体育迷
体育迷
合计
男
女
合计
(2)将日均收看该体育节目不低于 50 分钟的观众称为“超级体育迷”,已知“超级体育
迷”中有 2 名女性.若从“超级体育迷”中任意选取
附: K 2=
n ad- bc 2
.
a+ b c+ d a+ c b+ d
高考数学真题专题十一 概率与统计第三十三讲 回归分析与独立性检验答案
专题十一 概率与统计第三十三讲 回归分析与独立性检验答案部分1.C 【解析】因为22.5x =,160y =,所以$160422.570a=-⨯=,42470166y =⨯+=,选C .2.B 【解析】∵10.0x =,8.0y =,ˆ0.76b=,∴ˆ80.76100.4a =-⨯=, ∴回归方程为ˆ0.760.4yx =+,把15x =代入上式得, ˆ0.76150.411.8y=?=(万元),选B . 3.A 【解析】由题意可知,相应的回归直线的斜率应为正,排除C 、D .且直线必过点(3,3.5),代入A 、B 得A 正确.4.A 【解析】画出散点图知0,0b a <>.5.D 【解析】因为所有的点都在直线上,这组样本数据完全正相关,故其相关系数为1,故选D.6.D 【解析】因为222152(6221410)5281636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,222252(4201612)521121636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,222352(824128)52961636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,222452(143062)524081636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,则有22224231χχχχ>>>,所以阅读量与性别关联的可能性最大.7.D 【解析】由回归方程为$y =0.85x -85.71知y 随x 的增大而增大,所以y 与x 具有正的线性相关关系,由最小二乘法建立的回归方程得过程知ˆ()ybx a bx y bx a y bx =+=+-=-, 所以回归直线过样本点的中心(x ,y ),利用回归方程可以预测估计总体,所以D 不正确.8.B 【解析】样本中心点是(3.5,42),则ˆˆ429.4 3.59.1ay bx =-=-⨯=,所以回归方程是ˆ9.49.1yx =+,把6x =代入得ˆ65.5y =. 9.【解析】(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为ˆ30.413.519226.1y=-+⨯=(亿元). 利用模型②,该地区2018年的环境基础设施投资额的预测值为ˆ9917.59256.5y=+⨯=(亿元). (2)利用模型②得到的预测值更可靠. 理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线30.413.5y t =-+上下.这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型ˆ9917.5yt =+可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理.说明利用模型②得到的预测值更可靠.以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分. 10.【解析】(Ⅰ)由折线图这数据和附注中参考数据得4=t ,28)(712=-∑=i i t t ,55.0)(712=-∑=i iy y,40.1749.32 2.89==-⨯=,99.0646.2255.089.2≈⨯⨯≈r .因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关相当高,从而可以用线性回归模型拟合y 与t 的关系.(Ⅱ)由331.1732.9≈=y 及(Ⅰ)得71721()()2.89ˆ0.10328()ii i ii tt y y b tt ==--==≈-∑∑, 92.04103.0331.1ˆˆ≈⨯-≈-=t b y a. 所以,y 关于t 的回归方程为:t y10.092.0ˆ+=. 将2016年对应的9=t 代入回归方程得:82.1910.092.0ˆ=⨯+=y. 所以预测2016年我国生活垃圾无害化处理量将约1.82亿吨.11.【解析】(Ⅰ)由散点图可以判断,y c =+适宜作为年销售量y 关于年宣传费x 的回归方程类型.(Ⅱ)令w =y 关于w 的线性回归方程,由于81821()()108.8ˆ681.6()iii ii w w y y dw w ==--===-∑∑. ˆˆ56368 6.8100.6cy dw =-=-⨯=, 所以y 关于w 的线性回归方程为ˆ100.668y w =+,因此y 关于x 的回归方程为ˆ100.6y=+ (Ⅲ)(ⅰ)由(Ⅱ)知,当49x =时,年销售量y 的预报值ˆ100.6576.6y=+= 年利润z 的预报值ˆ576.60.24966.32z=⨯-=. (ⅱ)根据(Ⅱ)得结果知,年利润z 的预报值ˆ0.2(100.620.12zx x =+-=-+.13.66.82==,即46.24x =时,ˆz取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大. 12.【解析】(I ) 由所给数据计算得17t =(1+2+3+4+5+6+7)=417y =(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3 7211()t tt =-∑=9+4+1+0+1+4+9=287111()()t tt y y =--∑=(3)( 1.4)(2)(1)(1)(0.7)-⨯-+-⨯-+-⨯-00.110.520.93 1.614+⨯+⨯+⨯+⨯=71117211()()140.528()t t tt y y btt ==--===-∑∑$,$ 4.30.54 2.3ay bt =-=-⨯=$. 所求回归方程为$0.5 2.3y t =+.13.【解析】(I)由频率颁布直方图可知,在抽取的100人中,“体育迷”有25人,从而2×2列联表如下:由2×2列联表中数据代入公式计算,得:222112212211212()100(30104515)100 3.0307525455533n n n n n x n n n n ++++-⨯-⨯==≈⨯⨯⨯因为3.030<3.841,所以,没有理由认为“体育迷”与性别有关.(II )由频率分布直方图可知,“超级体育迷”为5人,从而一切可能结果所组成的基本事件空间12132311{(,),(,),(,),(,)a a a a a a a b Ω=12212231,(,),(,),(,),(,),a b a b a b a b3212(,),(,)}a b b b 其中i a 表示男性,1,2,3i =.j b 表示女性,1,2j =.Ω由10个基本事件组成,而且这些事件的出现时等可能的.用A 表示“任选2人中至少有1名是女性”这一事件,则11122122313212{(,),(,),(,),(,),(,),(,),(,)}A a b a b a b a b a b a b b b = ∴7()10P A =。
高中数学 回归分析与独立性检验
专题十 概率与统计第二十九讲 回归分析与独立性检验一、选择题1.(2015湖北)已知变量x 和y 满足关系0.11y x =-+,变量y 与z 正相关,下列结论中正确的是A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关 2.(2014湖北)根据如下样本数据x 3 4 5 6 7 8 y4.02.50.5-0.52.0-3.0-得到的回归方程为ˆybx a =+,则 A .0a >,0b < B .0a >,0b > C .0a <,0b < D .0a <,0b > 3.(2014江西)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量之间的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是4.(2012新课标)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线112y x =+上,则这组样本数据的样本相关系数为A .−1B .0C .12D .15.(2012湖南)设某大学的女生体重y (单位:kg )与身高x (单位:cm )具有线性相关关系,根据一组样本数据(i x ,i y )(i =1,2,…,n ),用最小二乘法建立的回归方程为y =0.85x -85.71,则下列结论中不正确...的是 A .y 与x 具有正的线性相关关系 B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1cm ,则其体重约增加0.85kgD .若该大学某女生身高为170cm ,则可断定其体重必为58.79kg 6.(2011山东)某产品的广告费用x 与销售额y 的统计数据如下表广告费用x (万元) 4 2 3 5 销售额y (万元)49263954根据上表可得回归方程ˆˆˆybx a =+中的ˆb 为9.4,据此模型预报广告费用为6万元时销售额为A .63.6万元B .65.5万元C .67.7万元D .72.0万元二、填空题7.(2015北京)高三年级267位学生参加期末考试,某班37位学生的语文成绩,数学成绩与总成绩在全年级中的排名情况如下,甲、乙、丙为该班三位学生.从这次考试成绩看,①在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是 ; ②在语文和数学两个科目中,丙同学的成绩名次更靠前的科目是 . 三、解答题8.(2018全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1217,,…,)建立模型①:ˆ30.413.5=-+yt ;根据2010年至2016年的数据(时间变量t 的值依次为127,,…,)建立模型②:ˆ9917.5=+yt . (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.9.(2017新课标Ⅰ)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸: 抽取次序 1 234 567 8 零件尺寸 9.95 10.12 9.96 9.96 10.01 9.92 9.98 10.04 抽取次序 910111213141516零件尺寸 10.26 9.91 10.13 10.02 9.22 10.04 10.05 9.95经计算得16119.9716i i x x ===∑错误!未找到引用源。
高考数学回归分析与独立性检验选择题
高考数学回归分析与独立性检验选择题1. 下列关于回归分析的描述中,正确的是:A. 回归分析只能用于变量之间存在线性关系的情况B. 回归分析只能用于变量之间存在正相关关系的情况C. 回归分析只能用于变量之间存在负相关关系的情况D. 回归分析可以用于变量之间存在非线性关系的情况2. 回归分析中的残差是指:A. 实际值与预测值之间的差B. 预测值与平均值之间的差C. 实际值与平均值之间的差D. 预测值与中位数之间的差3. 回归分析中的自变量和因变量是指:A. 自变量是影响因变量的因素,因变量是自变量的结果B. 自变量是因变量的结果,因变量是影响自变量的因素C. 自变量和因变量是相互独立的D. 自变量和因变量是相互依赖的4. 回归分析中的回归系数是指:A. 因变量与自变量之间的相关系数B. 因变量与自变量之间的协方差系数C. 因变量与自变量之间的相关系数和协方差系数之和D. 因变量与自变量之间的协方差系数和标准差之比5. 独立性检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系6. 独立性检验中的卡方检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系7. 独立性检验中的皮尔逊卡方检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系8. 独立性检验中的似然比检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系9. 独立性检验中的费舍尔精确检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系10. 独立性检验中的麦克尼马尔检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系11. 下列关于独立性检验的描述中,正确的是:A. 独立性检验只能用于变量之间存在线性关系的情况B. 独立性检验只能用于变量之间存在正相关关系的情况C. 独立性检验只能用于变量之间存在负相关关系的情况D. 独立性检验可以用于变量之间存在非线性关系的情况12. 独立性检验中的显著性水平是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度13. 独立性检验中的自由度是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度14. 独立性检验中的P值是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度15. 独立性检验中的临界值是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度16. 下列关于独立性检验的描述中,正确的是:A. 独立性检验只能用于变量之间存在线性关系的情况B. 独立性检验只能用于变量之间存在正相关关系的情况C. 独立性检验只能用于变量之间存在负相关关系的情况D. 独立性检验可以用于变量之间存在非线性关系的情况17. 独立性检验中的卡方检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系18. 独立性检验中的皮尔逊卡方检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系19. 独立性检验中的似然比检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系20. 独立性检验中的费舍尔精确检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系21. 下列关于独立性检验的描述中,正确的是:A. 独立性检验只能用于变量之间存在线性关系的情况B. 独立性检验只能用于变量之间存在正相关关系的情况C. 独立性检验只能用于变量之间存在负相关关系的情况D. 独立性检验可以用于变量之间存在非线性关系的情况22. 独立性检验中的显著性水平是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度23. 独立性检验中的自由度是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度24. 独立性检验中的P值是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度25. 独立性检验中的临界值是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度26. 下列关于独立性检验的描述中,正确的是:A. 独立性检验只能用于变量之间存在线性关系的情况B. 独立性检验只能用于变量之间存在正相关关系的情况C. 独立性检验只能用于变量之间存在负相关关系的情况D. 独立性检验可以用于变量之间存在非线性关系的情况27. 独立性检验中的卡方检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系28. 独立性检验中的皮尔逊卡方检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系29. 独立性检验中的似然比检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系30. 独立性检验中的费舍尔精确检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系31. 下列关于独立性检验的描述中,正确的是:A. 独立性检验只能用于变量之间存在线性关系的情况B. 独立性检验只能用于变量之间存在正相关关系的情况C. 独立性检验只能用于变量之间存在负相关关系的情况D. 独立性检验可以用于变量之间存在非线性关系的情况32. 独立性检验中的显著性水平是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度33. 独立性检验中的自由度是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度34. 独立性检验中的P值是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度35. 独立性检验中的临界值是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度36. 下列关于独立性检验的描述中,正确的是:A. 独立性检验只能用于变量之间存在线性关系的情况B. 独立性检验只能用于变量之间存在正相关关系的情况C. 独立性检验只能用于变量之间存在负相关关系的情况D. 独立性检验可以用于变量之间存在非线性关系的情况37. 独立性检验中的卡方检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系38. 独立性检验中的皮尔逊卡方检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系39. 独立性检验中的似然比检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系40. 独立性检验中的费舍尔精确检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系41. 下列关于独立性检验的描述中,正确的是:A. 独立性检验只能用于变量之间存在线性关系的情况B. 独立性检验只能用于变量之间存在正相关关系的情况C. 独立性检验只能用于变量之间存在负相关关系的情况D. 独立性检验可以用于变量之间存在非线性关系的情况42. 独立性检验中的显著性水平是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度43. 独立性检验中的自由度是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度44. 独立性检验中的P值是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度45. 独立性检验中的临界值是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度46. 下列关于独立性检验的描述中,正确的是:A. 独立性检验只能用于变量之间存在线性关系的情况B. 独立性检验只能用于变量之间存在正相关关系的情况C. 独立性检验只能用于变量之间存在负相关关系的情况D. 独立性检验可以用于变量之间存在非线性关系的情况47. 独立性检验中的卡方检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系48. 独立性检验中的皮尔逊卡方检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系49. 独立性检验中的似然比检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系50. 独立性检验中的费舍尔精确检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系。
高考数学一轮复习 第十一章概率与统计11.9回归分析与独立性检验练习 理 新人教A版
课时作业63 回归分析与独立性检验一、选择题1.下面是一个2×2y 1 y 2 合计 x 1a 21 73 x 2 22 25 47 合计b 46 120则表中a ,b A .94,72 B .52,50 C .52,74 D .74,522.对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图1;对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图2.由这两个散点图可以判断( ).图1图2A .变量x 与y 正相关,u 与v 正相关B .变量x 与y 正相关,u 与v 负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关3.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( ).A .若K 2的观测值为6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99个患有肺病B .由独立性检验知,有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患肺病C .若统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误D .以上三种说法都不正确4.下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②设有一个回归方程y ^=3-5x ,变量x 增加一个单位时,y 平均增加5个单位;③回归直线方程y ^=b ^x +a ^必过点(x ,y );④有一个2×2列联表中,由计算得K 2的观测值k =13.079,则有99.9%的把握认为这两个变量间有关系.其中错误的个数是( ).A .0B .1C .2D .3P (K 2≥k ) 0.5 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001k 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828 5.甲、乙、丙、丁四位同学各自对A ,B 两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r 与残差平方和m 如下表:甲 乙 丙 丁r 0.82 0.78 0.69 0.85m 106 115 124 103则哪位同学的试验结果体现A ,B 两变量更强的线性相关性( ).A .甲B .乙C .丙D .丁6.某产品的广告费用x 与销售额y 的统计数据如下表:广告费用x /万元 4 2 3 5销售额y /万元 49 26 39 54 根据上表可得回归方程y ^=b ^x +a ^中的b ^为9.4,据此模型预报广告费用为6万元时销售额为( ).A .63.6万元B .65.5万元C .67.7万元D .72.0万元7.设(x 1,y 1),(x 2,y 2),…,(x n ,y n )是变量x 和y 的n 个样本点,直线l 是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论中正确的是( ).A .x 和y 的相关系数为直线l 的斜率B .x 和y 的相关系数在0到1之间C .当n 为偶数时,分布在l 两侧的样本点的个数一定相同D .直线l 过点(x ,y )二、填空题8.为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如下2×2列联表:理科 文科 合计男 13 10 23女 7 20 27合计 20 30 50已知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025.根据表中数据,得到K 2的观测值k =50×13×20-10×7223×27×20×30≈4.844,则认为选修文科与性别有关系出错的可能性约为__________.9.某单位为了了解用电量y (千瓦时)与气温x (℃)之间的关系,随机统计了某4天的用气温/℃ 18 13 10 -1用电量/千瓦时 24 34 38 64由表中数据得线性回归方程y =b x +a 中b =-2,预测当气温为-4 ℃时,用电量约为________千瓦时.10.某市居民2007~2011年家庭年平均收入x (单位:万元)与年平均支出Y (单位:万元)年份/年 2007 2008 2009 2010 2011收入x /万元 11.5 12.1 13 13.3 15支出Y /万元 6.8 8.8 9.8 10 12根据统计资料,居民家庭年平均收入的中位数是__________,家庭年平均收入与年平均支出有__________线性相关关系.三、解答题11.(2012辽宁高考)电视传媒公司为了解某地区观众对某类体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.(1)根据已知条件完成下面的2×2列联表,并据此资料你是否认为“体育迷”与性别有关?非体育迷 体育迷 合计男女合计(2)将日均收看该体育节目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性.若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.附:K 2=n ad -bc 2a +b c +d a +c b +d. P (K 2≥k ) 0.05 0.01k 3.841 6.63512.为了比较注射A ,200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A ,另一组注射药物B .下表1和表2分别是注射药物A 和药物B 后的试验结果.(疱疹面积单位:mm 2)疱疹面积 [60,65) [65,70) [70,75) [75,80)频数 30 40 20 10疱疹面积 [60,65) [65,70) [70,75) [75,80) [80,85)频数 10 25 20 30 15(1)完成下面频率分布直方图,并比较注射两种药物后疱疹面积的中位数大小;图1 注射药物A后皮肤疱疹面积的频率分布直方图图2 注射药物B后皮肤疱疹面积的频率分布直方图(2)完成下面2×2列联表,并回答能否有99.9%的把握认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”.疱疹面积小于70 mm2疱疹面积不小于70 mm2合计注射药物A a=b=注射药物B c=d=合计n=2附:K2=P(K2≥k)0.1000.0500.0250.0100.001k 2.706 3.841 5.024 6.63510.828参考答案一、选择题1.C 解析:∵a +21=73,∴a =52.又a +22=b ,∴b =74.2.C 3.C4.B 解析:一组数据都加上或减去同一个常数,数据的平均数有变化,方差不变(方差是反映数据的波动程度的量),①正确;回归方程中x 的系数具备直线斜率的功能,对于回归直线方程y ^=3-5x ,当x 增加一个单位时,y 平均减少5个单位,②错误;由线性回归方程的定义知,线性回归方程y ^=b ^x +a ^必过点(x ,y ),③正确;因为K 2的观测值k =13.079>10.828,故有99.9%的把握认为这两个变量有关系,④正确.5.D 解析:丁同学所得相关系数r 最大,残差平方和m 最小,所以A ,B 两变量线性相关性更强.6.B 解析:样本中心点是(3.5,42),则a ^=y -b ^x =42-9.4×3.5=9.1,所以回归直线方程是y ^=9.4x +9.1,把x =6代入得y ^=65.5.7.D 解析:A 中,相关系数不是l 的斜率;B 中,x 和y 负相关;C 中,样本点的个数分布无规律;D 正确.二、填空题8.5% 解析:由K 2的观测值k ≈4.844>3.841,故认为选修文科与性别有关系出错的可能性约为5%.9.68 解析:x =10,y =40,∵回归方程过点(x ,y ),∴40=-2×10+a ^.∴a ^ =60.∴y ^=-2x +60.令x =-4,得y ^=(-2)×(-4)+60=68.10.13万元 正 解析:根据中位数的定义,居民家庭年平均收入的中位数是13万元,家庭年平均收入与年平均支出有正线性相关关系.三、解答题11.解:(1)由频率分布直方图可知,在抽取的100人中,“体育迷”为25人,从而完成2×2列联表如下:非体育迷 体育迷 合计男 30 15 45女 45 10 55合计 75 25 100将2×2K 2的观测值k =100×(30×10-45×15)275×25×45×55=10033≈3.030. 因为3.030<3.841,所以我们没有理由认为“体育迷”与性别有关.(2)由频率分布直方图可知,“超级体育迷”为5人,从而一切可能结果所组成的基本事件空间为Ω={(a 1,a 2),(a 1,a 3),(a 2,a 3),(a 1,b 1),(a 1,b 2),(a 2,b 1),(a 2,b 2),(a 3,b 1),(a3,b2),(b1,b2)}.其中a i表示男性,i=1,2,3.b j表示女性,j=1,2.Ω由10个基本事件组成,而且这些基本事件的出现是等可能的.用A表示“任选2人中,至少有1人是女性”这一事件,则A={(a1,b1),(a1,b2),(a2,b1),(a2,b2),(a3,b1),(a3,b2),(b1,b2)},事件A由7个基本事件组成,因而P(A)=7 10 .12.解:(1)图1 注射药物A后皮肤疱疹面积的频率分布直方图图2 注射药物B后皮肤疱疹面积的频率分布直方图可以看出注射药物A后的疱疹面积的中位数在65至70之间,而注射药物B后的疱疹面积的中位数在70至75之间,所以注射药物A后疱疹面积的中位数小于注射药物B后疱疹面积的中位数.疱疹面积小于70 mm2疱疹面积不小于70 mm2合计注射药物A a=70b=30100注射药物B c=35d=65100 合计10595n=200k=100×100×105×95≈24.56,由于k>10.828,所以有99.9%的把握认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”.。
高考数学一轮复习 第十一章概率与统计11.9回归分析与独立性检验收尾精炼 理
2014届高考一轮复习收尾精炼: 回归分析与独立性检验一、选择题1.下面是一个 a 则表中a ,b A .94,72 B .52,50 C .52,74 D .74,522.对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图1;对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图2.由这两个散点图可以判断( ).图1 图2A .变量x 与y 正相关,u 与v 正相关B .变量x 与y 正相关,u 与v 负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关3.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( ).A .若K 2的观测值为6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99个患有肺病B .由独立性检验知,有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患肺病C .若统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误D .以上三种说法都不正确4.下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②设有一个回归方程y ^=3-5x ,变量x 增加一个单位时,y 平均增加5个单位;③回归直线方程y ^=b ^x +a ^必过点(x ,y );④有一个2×2列联表中,由计算得K 2的观测值k =13.079,则有99.9%的把握认为这两个变量间有关系.其中错误的个数是( ).A .0B .1C .2D .3法分别求得相关系数r).A .甲B .乙C .丙D .丁6根据上表可得回归方程y=b x+a中的b为9.4,据此模型预报广告费用为6万元时销售额为( ).A.63.6万元B.65.5万元C.67.7万元D.72.0万元7. 设(x1,y1),(x2,y2),…,(x n,y n)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论中正确的是( ).A.x和y的相关系数为直线l的斜率B.x和y的相关系数在0到1之间C.当n为偶数时,分布在l两侧的样本点的个数一定相同D.直线l过点(x,y)二、填空题8.为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如下2×2列联表:已知P(K2≥3.841)≈0.05,根据表中数据,得到K2的观测值k=-223×27×20×30≈4.844,则认为选修文科与性别有关系出错的可能性约为__________.9.某单位为了了解用电量y(千瓦时)与气温x(℃)之间的关系,随机统计了某4天的由表中数据得线性回归方程y=b x+a中b=-2,预测当气温为-4 ℃时,用电量约为________千瓦时.10.某市居民2007~2011年家庭年平均收入x(单位:万元)与年平均支出Y(单位:万元)支出Y/万元支出有__________线性相关关系.三、解答题11.(2012辽宁高考)电视传媒公司为了解某地区观众对某类体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.(1)根据已知条件完成下面的2×2列联表,并据此资料你是否认为“体育迷”与性别有关?(2)5育迷”中有2名女性.若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.附:K 2=n ad -bc 2a+b c .12.为了比较注射A ,200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A ,另一组注射药物B.下表1和表2分别是注射药物A 和药物B 后的试验结果.(疱疹面积单位:mm 2)疱疹面积 [75,图1 注射药物A 后皮肤疱疹面积的频率分布直方图图2 注射药物B 后皮肤疱疹面积的频率分布直方图(2)完成下面2×2列联表,并回答能否有99.9%的把握认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”.附:K2=0.001参考答案一、选择题1.C 解析:∵a +21=73,∴a =52.又a +22=b ,∴b =74. 2.C 3.C4.B 解析:一组数据都加上或减去同一个常数,数据的平均数有变化,方差不变(方差是反映数据的波动程度的量),①正确;回归方程中x 的系数具备直线斜率的功能,对于回归直线方程y ^=3-5x ,当x 增加一个单位时,y 平均减少5个单位,②错误;由线性回归方程的定义知,线性回归方程y ^=b ^x +a ^必过点(x ,y ),③正确;因为K 2的观测值k =13.079>10.828,故有99.9%的把握认为这两个变量有关系,④正确.5.D 解析:丁同学所得相关系数r 最大,残差平方和m 最小,所以A ,B 两变量线性相关性更强.6.B 解析:样本中心点是(3.5,42),则a ^=y -b ^x =42-9.4×3.5=9.1,所以回归直线方程是y ^=9.4x +9.1,把x =6代入得y ^=65.5.7.D 解析:A 中,相关系数不是l 的斜率;B 中,x 和y 负相关;C 中,样本点的个数分布无规律;D 正确.二、填空题8.5% 解析:由K 2的观测值k ≈4.844>3.841,故认为选修文科与性别有关系出错的可能性约为5%.9.68 解析:x =10,y =40,∵回归方程过点(x ,y ),∴40=-2×10+a ^.∴a ^ =60.∴y ^=-2x +60.令x =-4,得y ^=(-2)×(-4)+60=68.10.13万元 正 解析:根据中位数的定义,居民家庭年平均收入的中位数是13万元,家庭年平均收入与年平均支出有正线性相关关系.三、解答题11.解:(1)由频率分布直方图可知,在抽取的100人中,“体育迷”为25人,从而完成2×2将2×2K 2的观测值k =100×(30×10-45×15)275×25×45×55=10033≈3.030. 因为3.030<3.841,所以我们没有理由认为“体育迷”与性别有关.(2)由频率分布直方图可知,“超级体育迷”为5人,从而一切可能结果所组成的基本事件空间为Ω={(a 1,a 2),(a 1,a 3),(a 2,a 3),(a 1,b 1),(a 1,b 2),(a 2,b 1),(a 2,b 2),(a 3,b 1),(a 3,b 2),(b 1,b 2)}.其中a i 表示男性,i =1,2,3.b j 表示女性,j =1,2.Ω由10个基本事件组成,而且这些基本事件的出现是等可能的.用A表示“任选2人中,至少有1人是女性”这一事件,则A={(a1,b1),(a1,b2),(a2,b1),(a2,b2),(a3,b1),(a3,b2),(b1,b2)},事件A由7个基本事件组成,因而P(A)=7 10 .12.解:(1)图1 注射药物A后皮肤疱疹面积的频率分布直方图图2 注射药物B后皮肤疱疹面积的频率分布直方图可以看出注射药物A后的疱疹面积的中位数在65至70之间,而注射药物B后的疱疹面积的中位数在70至75之间,所以注射药物A后疱疹面积的中位数小于注射药物B后疱疹面积的中位数.k=100×100×105×95≈24.56,由于k>10.828,所以有99.9%的把握认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”.。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4 2 3 1
专题十一 概率与统计
第三十三讲 回归分析与独立性检验
答案部分
1.C 【解析】因为 x = 22.5 ,y = 160 ,所以a =160 - 4⨯22.5 = 70 ,y = 4⨯ 24 + 70 = 166 ,
选 C .
2.B 【解析】∵ x = 10.0 , y = 8.0 , b ˆ = 0.76 ,∴ a ˆ = 8 - 0.76 ⨯10 = 0.4 ,
∴回归方程为 y ˆ = 0.76x +0.4 ,把 x = 15 代入上式得,
y ˆ = 0.76? 15 0.4 =11.8 (万元),选 B .
3. A 【解析】由题意可知,相应的回归直线的斜率应为正,排除 C 、D .且直线必过点(3,3.5) ,
代入A 、B 得A 正确.
4. A 【解析】画出散点图知b < 0, a > 0 .
5. D 【解析】因为所有的点都在直线上,这组样本数据完全正相关,故其相关系数为 1,故
选 D. χ 2 = 52⨯(6 ⨯ 22 -14⨯10)2 =
52⨯ 82 6.
D 【解析】因为 1 , 16⨯ 36⨯ 32⨯ 20 16⨯ 36⨯ 32⨯ 20 χ 2 = 52⨯(4⨯ 20 -16⨯12)2 = 52⨯1122 , 2
16 ⨯ 36 ⨯ 32 ⨯ 20 16 ⨯ 36 ⨯ 32 ⨯ 20
χ 2 = 52⨯(8⨯ 24 -12⨯ 8)2 = 52⨯ 962 , 3
16 ⨯ 36 ⨯ 32 ⨯ 20 16⨯ 36⨯ 32⨯ 20
χ 2 = 52⨯ (14 ⨯ 30 - 6⨯ 2)2 = 52 ⨯ 4082 , 4
16 ⨯ 36 ⨯ 32 ⨯ 20 16 ⨯ 36 ⨯ 32 ⨯ 20
则有 χ 2 > χ 2 > χ 2 > χ 2
,所以阅读量与性别关联的可能性最大.
7. D 【解析】由回归方程为 y =0.85x - 85.71 知 y 随 x 的增大而增大,所以 y 与 x 具有正的
线性相关关系,由最小二乘法建立的回归方程得过程知
y
ˆ = bx + a = bx + y - bx (a = y - bx ) ,
所以回归直线过样本点的中心( x , y ),利用回归方程可以预测估计总体,所以 D 不
7
正确.
8.B 【解析】样本中心点是(3.5,42),则 a
ˆ = y - b ˆx = 42 - 9.4⨯3.5 = 9.1,所以回归方程是 y
ˆ = 9.4x + 9.1,把 x = 6 代入得 y ˆ = 65.5. 9. 【解析】(1)利用模型①,该地区 2018 年的环境基础设施投资额的预测值为
y
ˆ = -30.4 +13.5⨯19 = 226.1(亿元).
利用模型②,该地区 2018 年的环境基础设施投资额的预测值为
y
ˆ = 99 +17.5⨯9 = 256.5(亿元).
(2)利用模型②得到的预测值更可
靠. 理由如下:
(ⅰ)从折线图可以看出,2000 年至 2016 年的数据对应的点没有随机散布在直线
y = -30.4 +13.5t 上下.这说明利用 2000 年至 2016 年的数据建立的线性模型①不能很
好地描述环境基础设施投资额的变化趋势.2010 年相对 2009 年的环境基础设施投资额有明显增加,2010 年至 2016 年的数据对应的点位于一条直线的附近,这说明从 2010 年开始环境基础设施投资额的变化规律呈线性增长趋势,利用 2010 年至 2016 年的数据
建立的线性模型 y
ˆ = 99 +17.5t 可以较好地描述 2010 年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
(ⅱ)从计算结果看,相对于 2016 年的环境基础设施投资额 220 亿元,由模型①得到的
预测值 226.1 亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理.说明利用模型②得到的预测值更可靠.
以上给出了 2 种理由,考生答出其中任意一种或其他合理理由均可得分.
10. 【解析】(Ⅰ)由折线图这数据和附注中参考数据得
t = 4 , ∑(t i - t ) = 28 , 2
= 0.55 , i =1
r ≈2.89 =
≈ 0.99 . = 40.17 - 4⨯9.32 = 2.89 ,
0.55 ⨯ 2 ⨯ 2.646
因为 y 与t 的相关系数近似为 0.99,说明 y 与t 的线性相关相当高,从而可以用线性
∑ i =1
7 ( y - y ) 2 i
x x x 49 ∑ 2.89 ∑ 108.8 i
回归模型拟合 y 与t 的关系.
(Ⅱ)由 y = 9.32 7
(t i - t )( y i - y ) ≈ 1.331 及(Ⅰ)得b ˆ = i =1 = ≈ 0.103 , 7 a ˆ = y - b ˆt ≈ 1.331 - 0.103 ⨯ 4 ≈ 0.92 .
∑ i =1
(t i - t )2 28 所以, y 关于t 的回归方程为: y ˆ = 0.92 + 0.10t .
将 2016 年对应的t = 9 代入回归方程得: y ˆ = 0.92 + 0.10 ⨯ 9 = 1.82 .
所以预测 2016 年我国生活垃圾无害化处理量将约 1.82 亿吨.
11. 【解析】(Ⅰ)由散点图可以判断, y = c + d 适宜作为年销售量 y 关于年宣传费 x 的
回归方程类型.
(Ⅱ)令 w = ,先建立 y 关于 w 的线性回归方程,由于
8
(w i - w )( y i - y ) d ˆ = i =1 = = 68 . ∑ i =1
(w - w )2 1.6
c ˆ = y -
d ˆw = 563 - 68⨯ 6.8 =100.6 ,
所以 y 关于 w 的线性回归方程为 y ˆ = 100.6 + 68w ,因此 y 关于 x 的回归方程为
y ˆ =100.6 + 68 .
(Ⅲ)(ⅰ)由(Ⅱ)知,当 x = 49 时,年销售量 y 的预报值
y ˆ =100.6 + 68 = 576.6
年利润 z 的预报值
z ˆ = 576.6 ⨯ 0.2 - 49 = 66.32 .
(ⅱ)根据(Ⅱ)得结果知,年利润 z 的预报值
z ˆ = 0.2(100.6 + 68 x ) - x = -x +13.6 x + 20.12 .
所以当 = 13.6 = 6.8 ,即 x = 46.24 时, z ˆ 取得最大值.
2
故年宣传费为46.24 千元时,年利润的预报值最大.
12.【解析】(I ) 由所给数据计算得t = 1 (1+2+3+4+5+6+7)=4
7 x 7 8
1 ∑ ∑
y = (2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3 7
∑(t
1 - t )
2 =9+4+1+0+1+4+9=28
t =1 7
(t 1 - t )( y 1 - y ) = (-3)⨯(-1.4) + (-2)⨯(-1) + (-1)⨯ (-0.7)
t =1
+0 ⨯ 0.1+1⨯ 0.5 + 2 ⨯ 0.9 + 3⨯1.6 = 14
7 (t 1 - t )( y 1
- y ) 14 b = t =1 = = 0.5 , a = y - bt = 4.3 - 0.5⨯ 4 = 2.3 . ∑ t =1
(t 1 - t )2 28
所求回归方程为 y = 0.5t + 2.3 .
13.【解析】(I)由频率颁布直方图可知,在抽取的 100 人中,“体育迷”有 25 人,从而 2×2 列
联表如下:
由 2×2 列联表中数据代入公式计算,得:
2
n (n n - n n )2 100(30⨯10 - 45⨯15)2 100
x = 11 22 12 21 = ≈ 3.030 n 1+ n 2+ n +1n +2 75⨯ 25⨯ 45⨯ 55 33
因为 3.030<3.841,所以,没有理由认为“体育迷”与性别有关.
(II )由频率分布直方图可知,“超级体育迷”为 5
人,从而一切可能结果所组成的基本事件空间Ω={(a 1, a 2 ),(a 1, a 3 ),(a 2 ,
a 3 ),(a 1,
b 1) ,(a 1,b 2 ),(a 2 ,b 1),(a 2 ,b 2 ),(a 3,b 1),
(a 3,b 2 ),(b 1,b 2 )} 其中a i 表示男性,i = 1, 2, 3 .b j 表示女性, j = 1, 2 .Ω 由 10 个基本 事件组成,而且这些事件的出现时等可能的.用 A 表示“任选 2 人中至少有 1
名是女性”这一事件,则 A
={(a 1,b 1),(a 1,b 2 ),(a 2 ,b 1),(a 2 ,b 2 ),(a 3,b 1),(a 3,b 2 ),(b 1,b 2 )}
7 7 7 非体育迷 体育迷 合计 男 30 15 45 女 45 10 55 合计 75 25 100
高考真题
∴P( A) =
10。