回归分析与独立性检验答案十年真题分类汇
【高考数学】专题十 概率与统计第二十九讲 回归分析与独立性检验(含答案)
取的 16 个零件的尺寸:
抽取次序 1
2
3
4
5
6
7
8
零件尺寸 9.95 10.12 9.96 9.96 10.01 9.92 9.98 10.04
抽取次序 9
10
11
12
13
14
15
16
零件尺寸 10.26 9.91 10.13 10.02 9.22 10.04 10.05 9.95
经计算得
x
正确的是
A. x 与 y 正相关, x 与 z 负相关 C. x 与 y 负相关, x 与 z 负相关
2.(2014 湖北)根据如下样本数据
B. x 与 y 正相关, x 与 z 正相关 D. x 与 y 负相关, x 与 z 正相关
x
3
4
5
6
7
8
y
4.0
2.5
− 0.5
0.5
− 2.0
− 3.0
得到的回归方程为 yˆ = bx + a ,则
=
1 16
16 i =1
xi
=
9.97 , s
=
1 16
16 i =1
( xi
− x)2
=
1 16
(
16 i =1
xi2
−16x 2 )
16
16
0.212 , (i − 8.5)2 18.439 , (xi − x)(i − 8.5) = −2.78 ,其中 xi 为抽取的
i =1
i =1
第 i 个零件的尺寸, i =1,2,…,16.
专题十 概率与统计
第二十九讲 回归分析与独立性检验
2019 年
回归分析及独立性检验的基本知识点及习题集锦
回归分析的基本知识点及习题本周题目:回归分析的基本思想及其初步应用本周重点:(1)通过对实际问题的分析,了解回归分析的必要性与回归分析的一般步骤;了解线性回归模型与函数模型的区别;(2)尝试做散点图,求回归直线方程;(3)能用所学的知识对实际问题进行回归分析,体会回归分析的实际价值与基本思想;了解判断刻画回归模型拟合好坏的方法――相关指数和残差分析。
本周难点:(1)求回归直线方程,会用所学的知识对实际问题进行回归分析.(2)掌握回归分析的实际价值与基本思想.(3)能运用自己所学的知识对具体案例进行检验与说明.(4)残差变量的解释;(5)偏差平方和分解的思想;本周内容:一、基础知识梳理1.回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线。
求回归直线方程的一般步骤:①作出散点图(由样本点是否呈条状分布来判断两个量是否具有线性相关关系),若存在线性相关关系→②求回归系数→③写出回归直线方程,并利用回归直线方程进行预测说明.2.回归分析:对具有相关关系的两个变量进行统计分析的一种常用方法。
建立回归模型的基本步骤是:①确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;②画好确定好的解释变量和预报变量的散点图,观察它们之间的关系(线性关系).③由经验确定回归方程的类型.④按一定规则估计回归方程中的参数(最小二乘法);⑤得出结论后在分析残差图是否异常,若存在异常,则检验数据是否有误,后模型是否合适等.3.利用统计方法解决实际问题的基本步骤:(1)提出问题;(2)收集数据;(3)分析整理数据;(4)进行预测或决策。
4.残差变量的主要来源:(1)用线性回归模型近似真实模型(真实模型是客观存在的,通常我们并不知道真实模型到底是什么)所引起的误差。
可能存在非线性的函数能够更好地描述与之间的关系,但是现在却用线性函数来表述这种关系,结果就会产生误差。
理科数学2010-2019高考真题分类训练专题十一概率与统计第三十三讲回归分析与独立性检验
专题十一 概率与统计第三十三讲 回归分析与独立性检验一、选择题1.(2017山东)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为ˆˆˆy bx a =+.已知101225i i x ==∑,1011600i i y ==∑,ˆ4b =.该班某学生的脚长为24,据此估计其身高为A .160B .163C .166D .1702.(2015福建)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归本线方程ˆˆˆybx a =+ ,其中ˆˆˆ0.76,b a y bx ==- ,据此估计,该社区一户收入为15万元家庭年支出为A .11.4万元B .11.8万元C .12.0万元D .12.2万元 3.(2014重庆)已知变量x 与y 正相关,且由观测数据算得样本的平均数3x =, 3.5y =,则由该观测数据算得的线性回归方程可能为A .$0.4 2.3y x =+B .$2 2.4y x =-C .$29.5y x =-+D .$0.3 4.4y x =-+ 4.(2014湖北)根据如下样本数据得到的回归方程为ˆybx a =+,则 A .0a >,0b < B .0a >,0b > C .0a <,0b < D .0a <,0b > 5.(2012新课标)在一组样本数据(1,y 1),(2,y 2),…,(n ,y n )(n ≥2,1,2,…,n 不全相等)的散点图中,若所有样本点(i ,y i )(i =1,2,…,n )都在直线112y x =+上,则这组样本数据的样本相关系数为A .−1B .0C .12D .16.(2014江西)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量之间的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是7.(2012湖南)设某大学的女生体重y (单位:g )与身高(单位:cm )具有线性相关关系,根据一组样本数据(i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为$y =0.8585.71,则下列结论中不正确...的是 A .y 与具有正的线性相关关系B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1cm ,则其体重约增加0.85gD .若该大学某女生身高为170cm ,则可断定其体重必为58.79g 8.(2011山东)某产品的广告费用与销售额y 的统计数据如下表广告费用(万元) 4 2 3 5 销售额y (万元)49263954根据上表可得回归方程ˆˆˆybx a =+中的ˆb 为9.4,据此模型预报广告费用为6万元时销售额为A .63.6万元B .65.5万元C .67.7万元D .72.0万元二、解答题9.(2018全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1217,,…,)建立模型①:ˆ30.413.5=-+yt ;根据2010年至2016年的数据(时间变量t 的值依次为127,,…,)建立模型②:ˆ9917.5=+yt . (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.10.(2016年全国III)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图(Ⅰ)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (Ⅱ)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:719.32ii y==∑,7140.17i i i t y ==∑,721()0.55ii yy =-=∑,7≈2.646.参考公式:相关系数12211()()()(yy)ni ii n ni ii i t t y y r t t ===--=--∑∑∑,回归方程y a bt =+)))中斜率和截距的最小二乘估计公式分别为:121()()()nii i nii tt y y b tt ==--=-∑∑),=.a y bt -)))11.(2015新课标1)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的年宣传费i x 和年销售量i y (i =1,2,···,8)数据作了初步处理,得到下面的散点图及一些统计量的值.xyw821()ii x x =-∑821()ii w w =-∑81()()iii x x yy =--∑81()()iii w w yy =--∑46.6563 6.8289.81.61469108.8表中i i w x =w =1881i i w =∑.(Ⅰ)根据散点图判断,y a bx =+与y c =+哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由) (Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立y 关于x 的回归方程;(Ⅲ)已知这种产品的年利率z 与x 、y 的关系为0.2z y x =-.根据(Ⅱ)的结果回答下列问题:(ⅰ)年宣传费x =49时,年销售量及年利润的预报值是多少?(ⅱ)年宣传费x 为何值时,年利率的预报值最大?附:对于一组数据11(,)u v ,22(,)u v ,,(,)n n u v ,其回归线v u αβ=+的斜率和截距的最小二乘估计分别为121()()ˆ()niii nii u u v v u u β==--=-∑∑,ˆˆv u αβ=-. 12.(2014新课标2)某地区2007年至2013年农村居民家庭纯收入y (单位:千元)的数据如下表:(Ⅰ)求y 关于t 的线性回归方程;(Ⅱ)利用(Ⅰ)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入. 附:回归直线的斜率和截距的最小二乘估计公式分别为:()()()121nii i ni i tty y b t t ∧==--=-∑∑,ˆˆay bt =- 13.(2012辽宁)电视传媒公司为了解某地区电视观众对某体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.(I )根据已知条件完成下面22⨯列联表,并据此资料你是否认为“体育迷”与性别有关?非体育迷体育迷 合计 男 女 合计(II )将日均收看该体育节目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性.若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.21212211222112)(++++-=n n n n n n n n n χ, 附:)(2k P ≥χ 0.050.01 k3.8416.635。
十年高考理科数学真题 专题十一 概率与统计 三十三 回归分析与独立性检验及答案
专题十一 概率与统计第三十三讲 回归分析与独立性检验一、选择题1.(2017山东)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为ˆˆˆy bx a =+.已知101225i i x ==∑,1011600i i y ==∑,ˆ4b =.该班某学生的脚长为24,据此估计其身高为A .160B .163C .166D .1702.(2015福建)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归本线方程ˆˆˆybx a =+ ,其中ˆˆˆ0.76,b a y bx ==- ,据此估计,该社区一户收入为15万元家庭年支出为A .11.4万元B .11.8万元C .12.0万元D .12.2万元 3.(2014重庆)已知变量x 与y 正相关,且由观测数据算得样本的平均数3x =, 3.5y =,则由该观测数据算得的线性回归方程可能为A .$0.4 2.3y x =+B .$2 2.4y x =-C .$29.5y x =-+D .$0.3 4.4y x =-+ 4.(2014湖北)根据如下样本数据得到的回归方程为ˆybx a =+,则 A .0a >,0b < B .0a >,0b > C .0a <,0b < D .0a <,0b > 5.(2012新课标)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线112y x =+上,则这组样本数据的样本相关系数为A .−1B .0C .12D .16.(2014江西)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量之间的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是7.(2012湖南)设某大学的女生体重y (单位:kg )与身高x (单位:cm )具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为$y =0.85x -85.71,则下列结论中不正确...的是 A .y 与x 具有正的线性相关关系 B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1cm ,则其体重约增加0.85kgD .若该大学某女生身高为170cm ,则可断定其体重必为58.79kg 8.(2011山东)某产品的广告费用x 与销售额y 的统计数据如下表广告费用x (万元) 4 2 3 5 销售额y (万元)49263954根据上表可得回归方程ˆˆˆy bx a =+中的ˆb 为9.4,据此模型预报广告费用为6万元时销售额为A .63.6万元B .65.5万元C .67.7万元D .72.0万元二、解答题9.(2018全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1217,,…,)建立模型①:ˆ30.413.5=-+yt ;根据2010年至2016年的数据(时间变量t 的值依次为127,,…,)建立模型②:ˆ9917.5=+yt . (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.10.(2016年全国III)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图(Ⅰ)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (Ⅱ)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:719.32ii y==∑,7140.17i i i t y ==∑,721()0.55ii y y =-=∑,7≈2.646.参考公式:相关系数12211()()()(yy)ni ii n ni ii i t t y y r t t ===--=--∑∑∑,回归方程y a bt =+)))中斜率和截距的最小二乘估计公式分别为:121()()()nii i nii tt y y b tt ==--=-∑∑),=.a y bt -)))11.(2015新课标1)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的年宣传费i x 和年销售量i y (i =1,2,···,8)数据作了初步处理,得到下面的散点图及一些统计量的值.xyw821()ii x x =-∑821()ii w w =-∑81()()iii x x yy =--∑81()()iii w w yy =--∑46.65636.8289.8 1.61469 108.8表中i i w x =w =1881i i w =∑.(Ⅰ)根据散点图判断,y a bx =+与y c x =+哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由) (Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立y 关于x 的回归方程;(Ⅲ)已知这种产品的年利率z 与x 、y 的关系为0.2z y x =-.根据(Ⅱ)的结果回答下列问题:(ⅰ)年宣传费x =49时,年销售量及年利润的预报值是多少? (ⅱ)年宣传费x 为何值时,年利率的预报值最大?附:对于一组数据11(,)u v ,22(,)u v ,⋅⋅⋅,(,)n n u v ,其回归线v u αβ=+的斜率和截距的最小二乘估计分别为121()()ˆ()niii nii u u v v u u β==--=-∑∑,ˆˆv u αβ=-. 12.(2014新课标2)某地区2007年至2013年农村居民家庭纯收入y (单位:千元)的数据如下表:(Ⅰ)求y 关于t 的线性回归方程;(Ⅱ)利用(Ⅰ)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入. 附:回归直线的斜率和截距的最小二乘估计公式分别为:()()()121nii i ni i tty y b t t ∧==--=-∑∑,ˆˆay bt =- 13.(2012辽宁)电视传媒公司为了解某地区电视观众对某体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.(I )根据已知条件完成下面22⨯列联表,并据此资料你是否认为“体育迷”与性别有关?非体育迷 体育迷 合计 男 女合计(II )将日均收看该体育节目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性.若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.21212211222112)(++++-=n n n n n n n n n χ, 附:专题十一 概率与统计第三十三讲 回归分析与独立性检验答案部分1.C 【解析】因为22.5x =,160y =,所以$160422.570a=-⨯=,42470166y =⨯+=,选C .2.B 【解析】∵10.0x =,8.0y =,ˆ0.76b=,∴ˆ80.76100.4a =-⨯=, ∴回归方程为ˆ0.760.4yx =+,把15x =代入上式得, )(2k P ≥χ 0.050.01k3.841 6.635ˆ0.76150.411.8y=?=(万元),选B . 3.A 【解析】由题意可知,相应的回归直线的斜率应为正,排除C 、D .且直线必过点(3,3.5),代入A 、B 得A 正确.4.A 【解析】画出散点图知0,0b a <>.5.D 【解析】因为所有的点都在直线上,这组样本数据完全正相关,故其相关系数为1,故选D.6.D 【解析】因为222152(6221410)5281636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,222252(4201612)521121636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,222352(824128)52961636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,222452(143062)524081636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,则有22224231χχχχ>>>,所以阅读量与性别关联的可能性最大.7.D 【解析】由回归方程为$y =0.85x -85.71知y 随x 的增大而增大,所以y 与x 具有正的线性相关关系,由最小二乘法建立的回归方程得过程知ˆ()ybx a bx y bx a y bx =+=+-=-, 所以回归直线过样本点的中心(x ,y ),利用回归方程可以预测估计总体,所以D 不正确.8.B 【解析】样本中心点是(3.5,42),则ˆˆ429.4 3.59.1ay bx =-=-⨯=,所以回归方程是ˆ9.49.1yx =+,把6x =代入得ˆ65.5y =. 9.【解析】(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为ˆ30.413.519226.1y=-+⨯=(亿元). 利用模型②,该地区2018年的环境基础设施投资额的预测值为ˆ9917.59256.5y=+⨯=(亿元).(2)利用模型②得到的预测值更可靠. 理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线30.413.5y t =-+上下.这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型ˆ9917.5yt =+可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理.说明利用模型②得到的预测值更可靠.以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分. 10.【解析】(Ⅰ)由折线图这数据和附注中参考数据得4=t ,28)(712=-∑=i i t t ,55.0)(712=-∑=i iy y,40.1749.32 2.89==-⨯=,99.0646.2255.089.2≈⨯⨯≈r .因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关相当高,从而可以用线性回归模型拟合y 与t 的关系.(Ⅱ)由331.1732.9≈=y 及(Ⅰ)得71721()()2.89ˆ0.10328()ii i ii tt y y b tt ==--==≈-∑∑, 92.04103.0331.1ˆˆ≈⨯-≈-=t b y a. 所以,y 关于t 的回归方程为:t y10.092.0ˆ+=. 将2016年对应的9=t 代入回归方程得:82.1910.092.0ˆ=⨯+=y. 所以预测2016年我国生活垃圾无害化处理量将约1.82亿吨.11.【解析】(Ⅰ)由散点图可以判断,y c =+适宜作为年销售量y 关于年宣传费x 的回归方程类型.(Ⅱ)令w =y 关于w 的线性回归方程,由于81821()()108.8ˆ681.6()iii ii w w y y dw w ==--===-∑∑. ˆˆ56368 6.8100.6cy dw =-=-⨯=, 所以y 关于w 的线性回归方程为ˆ100.668y w =+,因此y 关于x 的回归方程为ˆ100.6y=+ (Ⅲ)(ⅰ)由(Ⅱ)知,当49x =时,年销售量y 的预报值ˆ100.6576.6y=+= 年利润z 的预报值ˆ576.60.24966.32z=⨯-=. (ⅱ)根据(Ⅱ)得结果知,年利润z 的预报值ˆ0.2(100.620.12zx x =+-=-+.13.66.82==,即46.24x =时,ˆz取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大. 12.【解析】(I ) 由所给数据计算得17t =(1+2+3+4+5+6+7)=4 17y =(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3 7211()t tt =-∑=9+4+1+0+1+4+9=287111()()t tt y y =--∑=(3)( 1.4)(2)(1)(1)(0.7)-⨯-+-⨯-+-⨯-00.110.520.93 1.614+⨯+⨯+⨯+⨯=71117211()()140.528()t t tt y y btt ==--===-∑∑$,$ 4.30.54 2.3ay bt =-=-⨯=$. 所求回归方程为$0.5 2.3y t =+.13.【解析】(I)由频率颁布直方图可知,在抽取的100人中,“体育迷”有25人,从而2×2列联表如下:由2×2列联表中数据代入公式计算,得:222112212211212()100(30104515)100 3.0307525455533n n n n n x n n n n ++++-⨯-⨯==≈⨯⨯⨯因为3.030<3.841,所以,没有理由认为“体育迷”与性别有关.(II )由频率分布直方图可知,“超级体育迷”为5人,从而一切可能结果所组成的基本事件空间12132311{(,),(,),(,),(,)a a a a a a a b Ω=12212231,(,),(,),(,),(,),a b a b a b a b3212(,),(,)}a b b b 其中i a 表示男性,1,2,3i =.j b 表示女性,1,2j =.Ω由10个基本事件组成,而且这些事件的出现时等可能的.用A 表示“任选2人中至少有1名是女性”这一事件,则11122122313212{(,),(,),(,),(,),(,),(,),(,)}A a b a b a b a b a b a b b b = ∴7()10P A =。
高考真题——回归分析和独立性检验
高考真题——回归分析和独立性检验副标题一、选择题(本大题共9小题,共45.0分)1.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:已知在全部105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的是()参考公式:K2=附表:列联表中c的值为30,b的值为35B. 列联表中c的值为15,b的值为50C. 根据列联表中的数据,若按的可靠性要求,能认为“成绩与班级有关系”D. 根据列联表中的数据,若按的可靠性要求,不能认为“成绩与班级有关系”2.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是()表1表2表3表4成绩视力 C. 智商 D. 阅读量3.下列两个变量中具有相关关系的是()A. 正方形的面积与边长B. 匀速行驶的车辆的行驶距离与时间C. 人的身高与体重D. 人的身高与视力4.下列说法:①将一组数据中的每一个数据都加上或减去同一个常数后,方差不变;②设有一个线性回归方程=3-5x,变量x增加1个单位时,y平均增加5个单位;③线性回归方程=x+必过(,);④设具有相关关系的两个变量x,y的相关系数为r,则|r|越接近于0,x和y之间的线性相关程度越高;⑤在一个2×2列联表中,由计算得K2的值,则K2的值越大,判断两个变量间有关联的把握就越大.其中错误的个数是()A. 0B. 1C. 2D. 35.某次考试,班主任从全班同学中随机抽取一个容量为8的样本,他们的数学、物理分数对应如下表:绘出散点图如下:根据以上信息,判断下列结论:①根据此散点图,可以判断数学成绩与物理成绩具有线性相关关系;②根据此散点图,可以判断数学成绩与物理成绩具有一次函数关系;③甲同学数学考了80分,那么,他的物理成绩一定比数学只考了60分的乙同学的物理成绩要高.其中正确的个数为A. 0B. 3C. 2D. 16.有人认为在机动车驾驶技术上,男性优于女性.这是真的么?某社会调查机构与交警合作随机统计了经常开车的100名驾驶员最近三个月内是否有交通事故或交通违法事件发生,得到下面的列联表:附:K2=据此表,可得()A. 认为机动车驾驶技术与性别有关的可靠性不足B. 认为机动车驾驶技术与性别有关的可靠性超过C. 认为机动车驾驶技术与性别有关的可靠性不足D. 认为机动车驾驶技术与性别有关的可靠性超过7.如图是相关变量x,y的散点图,现对这两个变量进行线性相关分析,方案一:根据图中所有数据,得到线性回归方程y=b1x+a1,相关系数为r1;方案二:剔除点(10,21),根据剩下数据得到线性回归直线方程y=b2x+a2,相关系数为r2.则()A. B. C. D.8.由K2=得K2=≈8.333>7.879A. 有以上的把握认为“爱好该项运动与性别有关”B. 有以上的把握认为“爱好该项运动与性别无关”C. 在犯错误的概率不超过的前提下,认为“爱好该项运动与性别有关”D. 在犯错误的概率不超过的前提下,认为“爱好该项运动与性别无关”9.有五组变量:①汽车的重量和汽车每消耗1升汽油所行驶的平均路程;②平均日学习时间和平均学习成绩;③某人每日吸烟量和身体健康情况;④圆的半径与面积;⑤汽车的重量和每千米耗油量.其中两个变量成正相关的是()A. ①③B. ②④C. ②⑤D. ④⑤二、填空题(本大题共1小题,共5.0分)10.高三年级267位学生参加期末考试,某班37位学生的语文成绩,数学成绩与总成绩在全年级的排名情况如图所示,甲、乙、丙为该班三位学生。
理科数学2010-2019高考真题分类训练专题十一概率与统计第三十三讲回归分析与独立性检验
专题十一 概率与统计第三十三讲 回归分析与独立性检验一、选择题1.(2017山东)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为ˆˆˆy bx a =+.已知101225i i x ==∑,1011600i i y ==∑,ˆ4b =.该班某学生的脚长为24,据此估计其身高为A .160B .163C .166D .1702.(2015福建)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归本线方程ˆˆˆybx a =+ ,其中ˆˆˆ0.76,b a y bx ==- ,据此估计,该社区一户收入为15万元家庭年支出为A .11.4万元B .11.8万元C .12.0万元D .12.2万元 3.(2014重庆)已知变量x 与y 正相关,且由观测数据算得样本的平均数3x =, 3.5y =,则由该观测数据算得的线性回归方程可能为A .$0.4 2.3y x =+B .$2 2.4y x =-C .$29.5y x =-+D .$0.3 4.4y x =-+ 4.(2014湖北)根据如下样本数据得到的回归方程为ˆybx a =+,则 A .0a >,0b < B .0a >,0b > C .0a <,0b < D .0a <,0b > 5.(2012新课标)在一组样本数据(1,y 1),(2,y 2),…,(n ,y n )(n ≥2,1,2,…,n 不全相等)的散点图中,若所有样本点(i ,y i )(i =1,2,…,n )都在直线112y x =+上,则这组样本数据的样本相关系数为A .−1B .0C .12D .16.(2014江西)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量之间的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是7.(2012湖南)设某大学的女生体重y (单位:g )与身高(单位:cm )具有线性相关关系,根据一组样本数据(i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为$y =0.8585.71,则下列结论中不正确...的是 A .y 与具有正的线性相关关系B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1cm ,则其体重约增加0.85gD .若该大学某女生身高为170cm ,则可断定其体重必为58.79g 8.(2011山东)某产品的广告费用与销售额y 的统计数据如下表广告费用(万元) 4 2 3 5 销售额y (万元)49263954根据上表可得回归方程ˆˆˆybx a =+中的ˆb 为9.4,据此模型预报广告费用为6万元时销售额为A .63.6万元B .65.5万元C .67.7万元D .72.0万元二、解答题9.(2018全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1217,,…,)建立模型①:ˆ30.413.5=-+yt ;根据2010年至2016年的数据(时间变量t 的值依次为127,,…,)建立模型②:ˆ9917.5=+yt . (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.10.(2016年全国III)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图(Ⅰ)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (Ⅱ)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:719.32ii y==∑,7140.17i i i t y ==∑,721()0.55ii yy =-=∑,7≈2.646.参考公式:相关系数12211()()()(yy)ni ii n ni ii i t t y y r t t ===--=--∑∑∑,回归方程y a bt =+)))中斜率和截距的最小二乘估计公式分别为:121()()()nii i nii tt y y b tt ==--=-∑∑),=.a y bt -)))11.(2015新课标1)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的年宣传费i x 和年销售量i y (i =1,2,···,8)数据作了初步处理,得到下面的散点图及一些统计量的值.xyw821()ii x x =-∑821()ii w w =-∑81()()iii x x yy =--∑81()()iii w w yy =--∑46.6563 6.8289.81.61469108.8表中i i w x =w =1881i i w =∑.(Ⅰ)根据散点图判断,y a bx =+与y c =+哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由) (Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立y 关于x 的回归方程;(Ⅲ)已知这种产品的年利率z 与x 、y 的关系为0.2z y x =-.根据(Ⅱ)的结果回答下列问题:(ⅰ)年宣传费x =49时,年销售量及年利润的预报值是多少?(ⅱ)年宣传费x 为何值时,年利率的预报值最大?附:对于一组数据11(,)u v ,22(,)u v ,,(,)n n u v ,其回归线v u αβ=+的斜率和截距的最小二乘估计分别为121()()ˆ()niii nii u u v v u u β==--=-∑∑,ˆˆv u αβ=-. 12.(2014新课标2)某地区2007年至2013年农村居民家庭纯收入y (单位:千元)的数据如下表:(Ⅰ)求y 关于t 的线性回归方程;(Ⅱ)利用(Ⅰ)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入. 附:回归直线的斜率和截距的最小二乘估计公式分别为:()()()121nii i ni i tty y b t t ∧==--=-∑∑,ˆˆay bt =- 13.(2012辽宁)电视传媒公司为了解某地区电视观众对某体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.(I )根据已知条件完成下面22⨯列联表,并据此资料你是否认为“体育迷”与性别有关?非体育迷体育迷 合计 男 女 合计(II )将日均收看该体育节目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性.若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.21212211222112)(++++-=n n n n n n n n n χ, 附:)(2k P ≥χ 0.050.01 k3.8416.635。
回归分析与独立性检验小题分类训练(含答案)
回归分析与独立性检验小题分类训练1.在一组样本数据为11(,)x y ,22(,)x y ,L ,(,)n n x y (2n ≥,1x ,2x ,3x ,L ,n x 不全相等)的散点图中,若所有样本点()(,1,2,,)i i x y i n =L 都在直线123y x =-+上,则这组样本数据的相关系数为( ) A .13- B .13 C .1D .-1 2.下图是相关变量,x y 的散点图,现对这两个变量进行线性相关分析,方案一:根据图中所有数据,得到线性回归方程:11ˆy b x a =+,相关系数为1r ;方案二:剔除点(10,32),根据剩下数据,得到线性回归方程:22ˆyb x a =+,相关系数为2r ;则( )A .1201r r <<<B .2101r r <<<C .1210r r -<<<D .2110r r -<<<3.变量,x y 之间的一组相关数据如表所示:x 45 6 7 y8.2 7.8 6.6 5.4 若,x y 之间的线性回归方程为ˆˆ12.28ybx =+,则ˆb 的值为( ) A .0.92- B .0.94- C .0.96- D .0.98-4.某产品的广告费支出x 与销售额y (单位:万元)之间的关系如下表,由此得到y 与x 的线性回归方程为∧∧+=a x y 6,由此可得:当广告支出5万元时,随机误差的效应(残差)为( )x 24 5 6 8 y 3040 60 50 70 A .-10B .0C .10D .20 5.已知下列命题:①回归直线ˆˆˆybx a =+恒过样本点的中心(),x y ,且至少过一个样本点; ②两个变量相关性越强,则相关系数r 就越接近于1;③将一组数据的每个数据都加一个相同的常数后,方差不变;④在回归直线方程20.5ˆyx =- 中,当解释变量x 增加一个单位时,预报变量ˆy 平均减少0.5; ⑤在线性回归模型中,相关指数2R 表示解释变量x 对于预报变量y 的贡献率,2R 越接近于1,表示回归效果越好;⑥对分类变量X与Y,它们的随机变量2K的观测值k来说,k越小,“X与Y有关系”的把握程度越大.⑦两个模型中残差平方和越小的模型拟合的效果越好.则正确命题的个数是()A.3B.4C.5D.66.经统计用于数学学习的时间(单位:小时)与成绩(单位:分)近似于线性相关关系,对某小组学生每周用于数学的学习时间x与数学成绩y进行数据收集如表:由表中样本数据求得回归方程为ŷ=b̂x+â,则()A.â+18b̂<100B.â+18b̂>100C.â+18b̂=100D.â+18b̂与100的大小无法确定k≈,7.为了解学生对街舞的喜欢是否与性别有关,在全校学生中进行抽样调查根据数据,求得2K的观测值0 4.804则至少有()的把握认为对街舞的喜欢与性别有关.参考数据:A.90% B.95% C.97.5% D.99.5%8.在一次独立性检验中,得出列联表如图:且最后发现,两个分类变量A和B没有任何关系,则a的可能值是()A.200 B.720 C.100 D.1809.利用独立性检验的方法调查大学生的性别与爱好某项运动是否有关,通过随机询问110名不同的大学生是否K≈爱好某项运动,利用22⨯列联表,由计算可得28.806参照附表,得到的正确结论是()A.有99.5%以上的把握认为“爱好该项运动与性别无关”B.有99.5%以上的把握认为“爱好该项运动与性别有关”C.在犯错误的概率不超过0.05%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过0.05%的前提下,认为“爱好该项运动与性别无关”参考答案1.D 根据回归直线方程是y 13=-x +2, 可得这两个变量是负相关,故这组样本数据的样本相关系数为负值,且所有样本点(x i ,y i )(i =1,2,…,n )都在直线上,则有|r |=1,∴相关系数r =﹣1.2.A 由散点图分布图可知,变量x 和y 成正相关,所以1201,01r r <<<< ,在剔除点(10,32)之后,且可看出回归直线22ˆyb x a =+的线性相关程度更强,2r 更接近1. 所以1201r r <<< .【点睛】本题主要考查散点图的正负相关以及变量的相关性,相关系数r 的意义:①当散点分布呈正相关,0r >;负相关,0r <;②0||1,||r r <<越接近1,说明两个变量越具有线性相关关系,即线性关系越强.3.C 解析:因为45678.27.8 6.6 5.45.5,744x y ++++++====,所以5.5712ˆ 2.8b =-,即ˆ0.96b =-,应选答案C .4.C 由题意,根据表格中的数据, 可得2456830406050705,5055x y ++++++++====, 所以ˆ6506520ay x =-⨯=-⨯=,所以ˆ620y x =+,取5x =,得ˆ652050y =⨯+=, 所以随机误差的效应(残差)为605010-=,故选C.5.B 对于①,回归直线y b x a ∧∧∧=+恒过样本点的中心(x y ,),可以不过任一个样本点,故①错误; 对于②,两个变量相关性越强,则相关系数r 的绝对值就越接近于1,故②错误;对于③,将一组数据的每个数据都加一个相同的常数后,由方差的性质可得方差不变,故③正确;对于④,在回归直线方程y ∧=2﹣0.5x 中,当解释变量x 每增加一个单位时,预报变量y ∧平均减少0.5个单位,故④正确;对于⑤,在线性回归模型中,相关指数R 2表示解释变量x 对于预报变量y 的贡献率, R 2越接近于1,表示回归效果越好,故⑤正确;对于⑥,对分类变量X 与Y ,它们的随机变量K 2的观测值k 来说,k 越大,“X 与Y 有关系”的把握程度越大,故⑥错误;对于⑦,可用残差平方和判断模型的拟合效果,残差平方和越小,模型的拟合效果越好,故⑦正确.6.B x̅=15(15+16+18+19+22)=18,y ̅=15(102+98+115+115+120)=110,所以样本数据的中心点为(18,110),所以110=18b ̂+a ̂,即点a ̂,b ̂满足a ̂+18b̂=110>100,故选B. 7.B 解:根据求得2K 的观测值0 4.804k ≈,且4.804 3.841>,所以至少有95%的把握认为对街舞的喜欢与性别有关 8.B 解:因为两个分类变量A 和B 没有任何关系,所以()()()()221180200800180 2.7023808001000180a a K a a +-⋅=<⋅+⋅⋅+ , 代入验证可知720a = .9.B 解:计算K 2≈8.806>7.879,对照表中数据得出有0.005的几率说明这两个变量之间的关系是不可信的, 即有1−0.005=99.5%的把握说明两个变量之间有关系,本题选择B 选项.。
【十年高考(文数)2010-2019】十 概率与统计第二十九讲 回归分析与独立性检验(附答案)
1专题十 概率与统计第二十九讲 回归分析与独立性检验2019年1.(2019全国1文17)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:满意 不满意 男顾客 40 10 女顾客3020(1)分别估计男、女顾客对该商场服务满意的概率;(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?附:22()()()()()n ad bc K a b c d a c b d −=++++.P (K 2≥k )0.050 0.010 0.001 k3.8416.63510.8282010-2018年一、选择题1.(2015湖北)已知变量x 和y 满足关系0.11y x =−+,变量y 与z 正相关,下列结论中正确的是A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关 2.(2014湖北)根据如下样本数据x3456782y4.0 2.50.5−0.52.0−3.0−得到的回归方程为ˆybx a =+,则 A .0a >,0b < B .0a >,0b > C .0a <,0b < D .0a <,0b >3.(2014江西)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量之间的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是4.(2012新课标)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线112y x =+上,则这组样本数据的样本相关系数为A .−1B .0C .12D .15.(2012湖南)设某大学的女生体重y (单位:kg )与身高x (单位:cm )具有线性相关关系,根据一组样本数据(i x ,i y )(i =1,2,…,n ),用最小二乘法建立的回归方程为$y =0.85x −85.71,则下列结论中不正确...的是 A .y 与x 具有正的线性相关关系 B .回归直线过样本点的中心(x ,y )3C .若该大学某女生身高增加1cm ,则其体重约增加0.85kgD .若该大学某女生身高为170cm ,则可断定其体重必为58.79kg 6.(2011山东)某产品的广告费用x 与销售额y 的统计数据如下表广告费用x (万元) 4 2 3 5 销售额y (万元)49263954根据上表可得回归方程ˆˆˆybx a =+中的ˆb 为9.4,据此模型预报广告费用为6万元时销售额为A .63.6万元B .65.5万元C .67.7万元D .72.0万元二、填空题7.(2015北京)高三年级267位学生参加期末考试,某班37位学生的语文成绩,数学成绩与总成绩在全年级中的排名情况如下,甲、乙、丙为该班三位学生.从这次考试成绩看,①在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是 ; ②在语文和数学两个科目中,丙同学的成绩名次更靠前的科目是 . 三、解答题8.(2018全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.4为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1217,,…,)建立模型①:ˆ30.413.5=−+yt ;根据2010年至2016年的数据(时间变量t 的值依次为127,,…,)建立模型②:ˆ9917.5=+yt . (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.9.(2017新课标Ⅰ)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:0.212≈18.439≈,161(8.5) 2.78i i x x i =−−=−∑,其中i x 为抽取的第i 个零件的尺寸,i =1,2, (16)(1)求(,)i x i (1,2,,16)i =⋅⋅⋅的相关系数r ,并回答是否可以认为这一天生产的零件5尺寸不随生产过程的进行而系统地变大或变小(若||0.25r <,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).(2)一天内抽检零件中,如果出现了尺寸在(3,3)x s x s −+之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查. (ⅰ)从这一天抽检的结果看,是否需对当天的生产过程进行检查?(ⅱ)在(3,3)x s x s −+之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(,)i i x y (1,2,,)i n =⋅⋅⋅的相关系数()()niix x y y r −−=∑0.09≈.10.(2016年全国III 卷)如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1–7分别对应年份2008–2014.(Ⅰ)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (Ⅱ)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:719.32ii y==∑,7140.17i i i t y ==∑0.55=≈2.646.6参考公式:相关系数(niit t y y r −−=∑ 回归方程y a bt =+)))中斜率和截距的最小二乘估计公式分别为:121()((ni i i ni i t t y y b t t ==−−=−∑∑),=.a y bt −))) 11.(2015新课标1)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的年宣传费i x 和年销售量i y (i =1,2,···,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中i w =,w =81i i w =∑.(Ⅰ)根据散点图判断,y a bx =+与y c =+哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由) (Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立y 关于x 的回归方程;(Ⅲ)已知这种产品的年利率z 与x 、y 的关系为0.2z y x =−.根据(Ⅱ)的结果回7答下列问题:(ⅰ)年宣传费49x =时,年销售量及年利润的预报值是多少? (ⅱ)年宣传费x 为何值时,年利率的预报值最大?附:对于一组数据11(,)u v ,22(,)u v ,⋅⋅⋅,(,)n n u v ,其回归线v u αβ=+的斜率和截距的最小二乘估计分别为121()()ˆ()niii nii u u v v u u β==−−=−∑∑,ˆˆv u αβ=−. 12.(2014新课标2)某地区2007年至2013年农村居民家庭纯收入y (单位:千元)的数据如下表: 年份 2007 2008 2009 2010 2011 2012 2013 年份代号t 1 2 3 4 5 6 7 人均纯收入y2.93.33.64.44.85.25.9(Ⅰ)求y 关于t 的线性回归方程;(Ⅱ)利用(Ⅰ)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入. 附:回归直线的斜率和截距的最小二乘估计公式分别为:()()()121nii i ni i tty y b t t ∧==−−=−∑∑,ˆˆay bt =− 13.(2012辽宁)电视传媒公司为了解某地区电视观众对某体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:8将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.(I )根据已知条件完成下面22×列联表,并据此资料你是否认为“体育迷”与性别有关?非体育迷 体育迷 合计 男 女合计(II )将日均收看该体育节目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性.若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.21212211222112)(++++−=n n n n n n n n n χ,附:)(2k P ≥χ 0.050.01k3.841 6.6351专题十 概率与统计第二十九讲 回归分析与独立性检验答案部分 2019年1.解析 (1)由调查数据,男顾客中对该商场服务满意的比率为400.850=,因此男顾客对该商场服务满意的概率的估计值为0.8. 女顾客中对该商场服务满意的比率为300.650=,因此女顾客对该商场服务满意的概率的估计值为0.6.(2)22100(40203010) 4.76250507030K ××−×=≈×××. 由于4.762 3.841>,故有95%的把握认为男、女顾客对该商场服务的评价有差异.2010-2018年1.C 【解析】因为变量x 和y 满足关系0.11y x =−+,其中0.10−<,所以x 与y 成负相关;又因为变量y 与z 正相关,不妨设z ky b =+(0)k >,则将0.11y x =−+代入即可得到:(0.11)0.1()z k x b kx k b =−++=−++,所以0.10k −<,所以x 与z 负相关,综上可知,应选C .2.A 【解析】画出散点图知0,0b a <>.3.D 【解析】因为222152(6221410)5281636322016363220χ××−××==××××××,222252(4201612)521121636322016363220χ××−××==××××××,222352(824128)52961636322016363220χ××−××==××××××,222452(143062)524081636322016363220χ××−××==××××××,2则有22224231χχχχ>>>,所以阅读量与性别关联的可能性最大.4.D 【解析】因为所有的点都在直线上,这组样本数据完全正相关,故其相关系数为1,故选D.5.D 【解析】由回归方程为$y =0.85x –85.71知y 随x 的增大而增大,所以y 与x 具有正的线性相关关系,由最小二乘法建立的回归方程得过程知ˆ()ybx a bx y bx a y bx =+=+−=−,所以回归直线过样本点的中心(x ,y ), 利用回归方程可以预测估计总体,所以D 不正确.6.B 【解析】样本中心点是(3.5,42),则ˆˆ429.4 3.59.1ay bx =−=−×=,所以回归方程是ˆ9.49.1yx =+,把6x =代入得ˆ65.5y =. 7.乙 数学 【解析】①由图可知,甲的语文成绩排名比总成绩排名靠后;而乙的语文成绩排名比总成绩排名靠前,故填乙.②由图可知,比丙的数学成绩排名还靠后的人比较多;而总成绩的排名中比丙排名靠后的人数比较少,所以丙的数学成绩的排名更靠前,故填数学.8.【解析】(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为ˆ30.413.519226.1y=−+×=(亿元). 利用模型②,该地区2018年的环境基础设施投资额的预测值为ˆ9917.59256.5y=+×=(亿元). (2)利用模型②得到的预测值更可靠. 理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线30.413.5y t =−+上下.这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型ˆ9917.5yt =+可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.3(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理.说明利用模型②得到的预测值更可靠.以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分. 9.【解析】(1)由样本数据得(,)(1,2,,16)i x i i =L 的相关系数为16()(8.5)0.18ix x i r −−==≈−∑.由于||0.25r <,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.(2)(i )由于9.97,0.212x s =≈,由样本数据可以看出抽取的第13个零件的尺寸在(3,3)x s x s −+以外,因此需对当天的生产过程进行检查.(ii )剔除离群值,即第13个数据,剩下数据的平均数为1(169.979.22)10.0215×−=, 这条生产线当天生产的零件尺寸的均值的估计值为10.02.162221160.212169.971591.134ii x==×+×≈∑,剔除第13个数据,剩下数据的样本方差为221(1591.1349.221510.02)0.00815−−×≈, 这条生产线当天生产的零件尺寸的标准差的估计值0.09≈. 10.【解析】(Ⅰ)由折线图中数据和附注中参考数据得4=t ,28)(712=−∑=i i t t ,55.0)(712=−∑=i iy y,489.232.9417.40))((717171=×−=−=−−∑∑===i i i i i i i iy t y t y y t t,99.0646.2255.089.2≈××≈r .因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(Ⅱ)由331.1732.9≈=y 及(Ⅰ)得103.02889.2)())((ˆ71271≈=−−−=∑∑==i i i i it t y y t tb , 92.04103.0331.1ˆˆ≈×−≈−=t b y a. 所以,y 关于t 的回归方程为:t y10.092.0ˆ+=. 将2016年对应的9=t 代入回归方程得:82.1910.092.0ˆ=×+=y. 所以预测2016年我国生活垃圾无害化处理量将约1.82亿吨.11.【解析】(Ⅰ)由散点图可以判断,y c =+适宜作为年销售量y 关于年宣传费x 的回归方程类型. (Ⅱ)令w =,先建立y 关于w 的线性回归方程,由于81821(108.8ˆ681.6(iii ii w w y y dw w ==−−===−∑∑. ˆˆ56368 6.8100.6cy dw =−=−×=, 所以y 关于w 的线性回归方程为ˆ100.668y w =+,因此y 关于x 的回归方程为ˆ100.6y=+. (Ⅲ)(ⅰ)由(Ⅱ)知,当49x =时,年销售量y 的预报值ˆ100.6576.6y=+=5年利润z 的预报值ˆ576.60.24966.32z=×−=. (ⅱ)根据(Ⅱ)得结果知,年利润z 的预报值ˆ0.2(100.620.12zx x =+−=−++. 所13.66.82==,即46.24x =时,ˆz取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大. 12.【解析】(I )由所给数据计算得17t =(1+2+3+4+5+6+7)=4 17y =(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3 7211()t tt =−∑=9+4+1+0+1+4+9=287111()()t tt y y =−−∑=(3)( 1.4)(2)(1)(1)(0.7)−×−+−×−+−×−00.110.520.93 1.614+×+×+×+×=71117211()()140.528()t t tt y y btt ==−−===−∑∑$,$ 4.30.54 2.3a y bt=−=−×=$. 所求回归方程为$0.5 2.3y t =+.13.【解析】(I)由频率颁布直方图可知,在抽取的100人中,“体育迷”有25人,从而2×2列联表如下:非体育迷 体育迷 合计 男 30 15 45 女4510 55 合计 7525100由2×2列联表中数据代入公式计算,得:6222112212211212()100(30104515)100 3.0307525455533n n n n n x n n n n ++++−×−×==≈×××因为3.030<3.841,所以,没有理由认为“体育迷”与性别有关.(II )由频率分布直方图可知,“超级体育迷”为5人,从而一切可能结果所组成的基本事件空间12132311{(,),(,),(,),(,)a a a a a a a b Ω=12212231,(,),(,),(,),(,),a b a b a b a b3212(,),(,)}a b b b 其中i a 表示男性,1,2,3i =.j b 表示女性,1,2j =.Ω由10个基本事件组成,而且这些事件的出现时等可能的.用A 表示“任选2人中至少有1名是女性”这一事件,则11122122313212{(,),(,),(,),(,),(,),(,),(,)}A a b a b a b a b a b a b b b = ∴7()10P A =。
专题十概率与统计第二十九讲回归分析与独立性检验答案 十年高考数学(文科)真题题型分类汇编
专题十 概率与统计第二十九讲 回归分析与独立性检验答案部分 2019年1.解析 (1)由调查数据,男顾客中对该商场服务满意的比率为400.850=,因此男顾客对该商场服务满意的概率的估计值为0.8. 女顾客中对该商场服务满意的比率为300.650=,因此女顾客对该商场服务满意的概率的估计值为0.6.(2)22100(40203010) 4.76250507030K ⨯⨯-⨯=≈⨯⨯⨯. 由于4.762 3.841>,故有95%的把握认为男、女顾客对该商场服务的评价有差异.2010-2018年1.C 【解析】因为变量x 和y 满足关系0.11y x =-+,其中0.10-<,所以x 与y 成负相关;又因为变量y 与z 正相关,不妨设z ky b =+(0)k >,则将0.11y x =-+代入即可得到:(0.11)0.1()z k x b kx k b =-++=-++,所以0.10k -<,所以x 与z 负相关,综上可知,应选C .2.A 【解析】画出散点图知0,0b a <>.3.D 【解析】因为222152(6221410)5281636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,222252(4201612)521121636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,222352(824128)52961636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,222452(143062)524081636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,则有22224231χχχχ>>>,所以阅读量与性别关联的可能性最大.4.D 【解析】因为所有的点都在直线上,这组样本数据完全正相关,故其相关系数为1,故选D.5.D 【解析】由回归方程为y =0.85x –85.71知y 随x 的增大而增大,所以y 与x 具有正的线性相关关系,由最小二乘法建立的回归方程得过程知ˆ()ybx a bx y bx a y bx =+=+-=-,所以回归直线过样本点的中心(x ,y ), 利用回归方程可以预测估计总体,所以D 不正确.6.B 【解析】样本中心点是(3.5,42),则ˆˆ429.4 3.59.1ay bx =-=-⨯=,所以回归方程是ˆ9.49.1yx =+,把6x =代入得ˆ65.5y =. 7.乙 数学 【解析】①由图可知,甲的语文成绩排名比总成绩排名靠后;而乙的语文成绩排名比总成绩排名靠前,故填乙.②由图可知,比丙的数学成绩排名还靠后的人比较多;而总成绩的排名中比丙排名靠后的人数比较少,所以丙的数学成绩的排名更靠前,故填数学.8.【解析】(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为ˆ30.413.519226.1y=-+⨯=(亿元). 利用模型②,该地区2018年的环境基础设施投资额的预测值为ˆ9917.59256.5y=+⨯=(亿元). (2)利用模型②得到的预测值更可靠. 理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线30.413.5y t =-+上下.这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型ˆ9917.5yt =+可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理.说明利用模型②得到的预测值更可靠.以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分. 9.【解析】(1)由样本数据得(,)(1,2,,16)i x i i =的相关系数为16()(8.5)0.18ix x i r --==≈-∑.由于||0.25r <,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.(2)(i )由于9.97,0.212x s =≈,由样本数据可以看出抽取的第13个零件的尺寸在(3,3)x s x s -+以外,因此需对当天的生产过程进行检查.(ii )剔除离群值,即第13个数据,剩下数据的平均数为1(169.979.22)10.0215⨯-=, 这条生产线当天生产的零件尺寸的均值的估计值为10.02.162221160.212169.971591.134ii x==⨯+⨯≈∑,剔除第13个数据,剩下数据的样本方差为221(1591.1349.221510.02)0.00815--⨯≈,0.09≈. 10.【解析】(Ⅰ)由折线图中数据和附注中参考数据得4=t ,28)(712=-∑=i i t t ,55.0)(712=-∑=i iy y,89.232.9417.40))((717171=⨯-=-=--∑∑∑===i i i i i i i iy t y t y y t t,99.0646.2255.089.2≈⨯⨯≈r .因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(Ⅱ)由331.1732.9≈=y 及(Ⅰ)得103.02889.2)())((ˆ71271≈=---=∑∑==i ii i it ty y t tb , 92.04103.0331.1ˆˆ≈⨯-≈-=t b y a. 所以,y 关于t 的回归方程为:t y10.092.0ˆ+=. 将2016年对应的9=t 代入回归方程得:82.1910.092.0ˆ=⨯+=y. 所以预测2016年我国生活垃圾无害化处理量将约1.82亿吨.11.【解析】(Ⅰ)由散点图可以判断,y c =+适宜作为年销售量y 关于年宣传费x 的回归方程类型.(Ⅱ)令w =y 关于w 的线性回归方程,由于81821()()108.8ˆ681.6()iii ii w w y y dw w ==--===-∑∑. ˆˆ56368 6.8100.6cy dw =-=-⨯=, 所以y 关于w 的线性回归方程为ˆ100.668y w =+,因此y 关于x 的回归方程为ˆ100.6y=+ (Ⅲ)(ⅰ)由(Ⅱ)知,当49x =时,年销售量y 的预报值ˆ100.6576.6y=+= 年利润z 的预报值ˆ576.60.24966.32z=⨯-=. (ⅱ)根据(Ⅱ)得结果知,年利润z 的预报值ˆ0.2(100.620.12zx x =+-=-+.13.66.82==,即46.24x =时,ˆz取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大. 12.【解析】(I )由所给数据计算得17t =(1+2+3+4+5+6+7)=417y =(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3 7211()t tt =-∑=9+4+1+0+1+4+9=287111()()t tt y y =--∑=(3)( 1.4)(2)(1)(1)(0.7)-⨯-+-⨯-+-⨯-00.110.520.93 1.614+⨯+⨯+⨯+⨯=71117211()()140.528()t t tt y y b tt ==--===-∑∑, 4.30.54 2.3a y bt =-=-⨯=. 所求回归方程为0.5 2.3y t =+.13.【解析】(I)由频率颁布直方图可知,在抽取的100人中,“体育迷”有25人,从而2×2列联表如下:由2×2列联表中数据代入公式计算,得:222112212211212()100(30104515)1003.0307525455533n n n n n x n n n n ++++-⨯-⨯==≈⨯⨯⨯因为3.030<3.841,所以,没有理由认为“体育迷”与性别有关.(II )由频率分布直方图可知,“超级体育迷”为5人,从而一切可能结果所组成的基本事件空间12132311{(,),(,),(,),(,)a a a a a a a b Ω=12212231,(,),(,),(,),(,),a b a b a b a b3212(,),(,)}a b b b 其中i a 表示男性,1,2,3i =.j b 表示女性,1,2j =.Ω由10个基本事件组成,而且这些事件的出现时等可能的.用A 表示“任选2人中至少有1名是女性”这一事件,则11122122313212{(,),(,),(,),(,),(,),(,),(,)}A a b a b a b a b a b a b b b = ∴7()10P A =。
《统计、回归分析、独立性检验》知识点及典例(详解)—精品文档
统计、回归分析、独立性检验一、考点系统归纳 1.简单随机抽样简单随机抽样是不放回抽样,被抽取样本的个体数有限,从总体中逐个地进行抽取,使抽样便于在实践中操作,每次抽样时,每个个体等可能地被抽到,保证了抽样的公平性,实施方法主要有抽签法和随机数法。
2.系统抽样(1)定义:当总体元素个数很大时,可将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体得到所需要的样本,这种抽样方法叫做系统抽样,也称作等距抽样。
(2)系统抽样的步骤:①编号:采用随机的方式将总体中的个体编号 ②分段:先确定分段的间隔k ,当n N (N 为总体中的个体数,n 为样本容量)是整数时,nN k =;当n N 不是整数时,通过从整体中随机剔除一些个体使剩下的总体中个体总数`N 能被n 整除,这时nN k `=③确定起始个体编号。
在第1段用简单随机抽样确定起始的个体编号S④按照事先确定的规则抽取样本.通常是将S 加上间隔k ,得到第2个个体编号S +k ,再将(S +k )加上k ,得到第3个个体编号S +2k ,这样继续下去,获得容量为n 的样本.其样本编号依次是:S ,S +k ,S +2k ,…,S +(n -1)k .3.分层抽样(1)定义:当总体由有明显差别的几部分组成时,按某种特征在抽样时将总体中的各个个体分成互不交叉的层,然后按照各层在总体中所占的比例,从各层独立地抽取一定数量的个体合在一起作为样本。
这种抽样的方法叫做分层抽样。
分层抽样使用的前提是总体可以分层,层与层之间有明显区别,而层内个体间差异较小,每层中所抽取的个体数可按各层个体数在总体中所占的比例抽取。
分层抽样要求对总体的内容有一定的了解,明确分层的界限和数目,分层要恰当。
(2)分层抽样的步骤①分层;②按比例确定每层抽取个体的个数;③各层抽样(方法可以不同)④汇合成样本 (3)分层抽样的优点分层抽样充分利用了已知信息,充分考虑了保持样本结构与总体结构的一致性。
高考数学分类理科版之回归分析与独立性检验及解析
高考数学分类理科版之回归分析与独立性检验及解析专题十一 概率与统计第三十三讲 回归分析与独立性检验 一、选择题1.(2017山东)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为ˆˆˆy bx a =+.已知101225i i x ==∑,1011600i i y ==∑,ˆ4b =.该班某学生的脚长为24,据此估计其身高为A.160B.163C.166D.1702.(2015福建)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归本线方程ˆˆˆy bx a =+ ,其中ˆˆˆ0.76,b a y bx ==- ,据此估计,该社区一户收入为15万元家庭年支出为A.11.4万元B.11.8万元C.12.0万元D.12.2万元3.(2014重庆)已知变量x 与y 正相关,且由观测数据算得样本的平均数3x =, 3.5y =,则由该观测数据算得的线性回归方程可能为A.0.4 2.3y x =+B.2 2.4y x =-C.29.5y x =-+D.0.3 4.4y x =-+ 4.(2014湖北)根据如下样本数据得到的回归方程为ˆy bx a=+,则A.0a >,0b <B.0a >,0b >C.0a <,0b <D.0a <,0b >5.(2012新课标)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线112y x =+上,则这组样本数据的样本相关系数为A.−1B.0C.12D.16.(2014江西)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量之间的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是7.(2012湖南)设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y =0.85x -85.71,则下列结论中不正确的是A.y 与x 具有正的线性相关关系B.回归直线过样本点的中心(x ,y )C.若该大学某女生身高增加1cm,则其体重约增加0.85kgD.若该大学某女生身高为170cm,则可断定其体重必为58.79kg 8.(2011山东)某产品的广告费用x 与销售额y 的统计数据如下表根据上表可得回归方程ˆˆˆy bx a =+中的ˆb 为9.4,据此模型预报广告费用为6万元时销售额为A.63.6万元B.65.5万元C.67.7万元D.72.0万元二、解答题9.(2018全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1217,,…,)建立模型①:ˆ30.413.5=-+y t ;根据2010年至2016年的数据(时间变量t 的值依次为127,,…,)建立模型②:ˆ9917.5=+yt . (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.10.(2016年全国ⅡI)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图(Ⅰ)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明;(Ⅱ)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:719.32i i y ==∑,7140.17i i i t y ==∑0.55=2.646.参考公式:相关系数()()niit t y y r --=∑回归方程y a bt =+中斜率和截距的最小二乘估计公式分别为:121()()()nii i nii tt y y b tt ==--=-∑∑,=.a y bt -11.(2015新课标1)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响,对近8年的年宣传费i x 和年销售量i y (i =1,2,···,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中i w =w =1881ii w=∑.(Ⅰ)根据散点图判断,y a bx =+与y c =+y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立y 关于x 的回归方程;(Ⅲ)已知这种产品的年利率z 与x 、y 的关系为0.2z y x =-.根据(Ⅱ)的结果回答下列问题:(ⅰ)年宣传费x =49时,年销售量及年利润的预报值是多少? (ⅱ)年宣传费x 为何值时,年利率的预报值最大?附:对于一组数据11(,)u v ,22(,)u v ,⋅⋅⋅,(,)n n u v ,其回归线v u αβ=+的斜率和截距的最小二乘估计分别为121()()ˆ()niii nii u u v v u u β==--=-∑∑,ˆˆv u αβ=-.12.(2014新课标2)某地区2007年至2013年农村居民家庭纯收入y(单位:千元)的数据如下表:(Ⅰ)求y 关于t 的线性回归方程;(Ⅱ)利用(Ⅰ)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入. 附:回归直线的斜率和截距的最小二乘估计公式分别为:()()()121niii ni i t t y y b t t ∧==--=-∑∑,ˆˆa y bt =-13.(2012辽宁)电视传媒公司为了解某地区电视观众对某体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.(I)根据已知条件完成下面22⨯列联表,并据此资料你是否认为“体育迷”与性别有关?(Ⅱ)将日均收看该体育节目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性.若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.21212211222112)(++++-=n n n n n n n n n χ,附:回归分析与独立性检验答案部分1.C 【试题解析】因为22.5x =,160y =,所以160422.570a =-⨯=,42470166y =⨯+=,选C.2.B 【试题解析】∵10.0x =,8.0y =,ˆ0.76b =,∴ˆ80.76100.4a=-⨯=, ∴回归方程为ˆ0.760.4yx =+,把15x =代入上式得, ˆ0.76150.411.8y=?=(万元),选B. 3.A 【试题解析】由题意可知,相应的回归直线的斜率应为正,排除C 、D.且直线必过点(3,3.5),代入A 、B 得A 正确.4.A 【试题解析】画出散点图知0,0b a <>.5.D 【试题解析】因为所有的点都在直线上,这组样本数据完全正相关,故其相关系数为1,故选D.6.D 【试题解析】因为222152(6221410)5281636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯, 222252(4201612)521121636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,222352(824128)52961636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,222452(143062)524081636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,则有22224231χχχχ>>>,所以阅读量与性别关联的可能性最大.7.D 【试题解析】由回归方程为y =0.85x -85.71知y 随x 的增大而增大,所以y 与x 具有正的线性相关关系,由最小二乘法建立的回归方程得过程知ˆ()ybx a bx y bx a y bx =+=+-=-, 所以回归直线过样本点的中心(x ,y ),利用回归方程可以预测估计总体,所以D 不正确.8.B 【试题解析】样本中心点是(3.5,42),则ˆˆ429.4 3.59.1a y bx =-=-⨯=,所以回归方程是ˆ9.49.1yx =+,把6x =代入得ˆ65.5y =. 9.【试题解析】(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为ˆ30.413.519226.1y=-+⨯=(亿元).利用模型②,该地区2018年的环境基础设施投资额的预测值为ˆ9917.59256.5y=+⨯=(亿元).(2)利用模型②得到的预测值更可靠.理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线30.413.5y t=-+上下.这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型ˆ9917.5y t=+可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理.说明利用模型②得到的预测值更可靠.以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分.10.【试题解析】(Ⅰ)由折线图这数据和附注中参考数据得4 = t,28)(712=-∑=iitt,55.0)(712=-∑=iiyy,40.1749.32 2.89==-⨯=,99.0646.2255.089.2≈⨯⨯≈r.因为y与t的相关系数近似为0.99,说明y与t的线性相关相当高,从而可以用线性回归模型拟合y与t的关系.(Ⅱ)由331.1732.9≈=y及(Ⅰ)得71721()()2.89ˆ0.10328()i iiiit t y ybt t==--==≈-∑∑,92.04103.0331.1ˆˆ≈⨯-≈-=t b y a .所以,y 关于t 的回归方程为:t y10.092.0ˆ+=. 将2016年对应的9=t 代入回归方程得:82.1910.092.0ˆ=⨯+=y. 所以预测2016年我国生活垃圾无害化处理量将约1.82亿吨.11.【试题解析】(Ⅰ)由散点图可以判断,y c =+y 关于年宣传费x 的回归方程类型.(Ⅱ)令w 先建立y 关于w 的线性回归方程,由于81821()()108.8ˆ681.6()iii ii w w y y dw w ==--===-∑∑.ˆˆ56368 6.8100.6c y dw =-=-⨯=,所以y 关于w 的线性回归方程为ˆ100.668yw =+,因此y 关于x 的回归方程为ˆ100.6y=+(Ⅲ)(ⅰ)由(Ⅱ)知,当49x =时,年销售量y 的预报值ˆ100.6576.6y=+= 年利润z 的预报值ˆ576.60.24966.32z=⨯-=. (ⅱ)根据(Ⅱ)得结果知,年利润z 的预报值ˆ0.2(100.620.12zx x =+-=-+.所以当13.66.82==,即46.24x =时,ˆz取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大.12.【试题解析】(I)由所给数据计算得17t =(1+2+3+4+5+6+7)=417y =(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.37211()t tt =-∑=9+4+1+0+1+4+9=287111()()t tt y y =--∑=(3)( 1.4)(2)(1)(1)(0.7)-⨯-+-⨯-+-⨯-00.110.520.93 1.614+⨯+⨯+⨯+⨯=71117211()()140.528()t t tt y y b tt ==--===-∑∑, 4.30.54 2.3a y bt =-=-⨯=.所求回归方程为0.5 2.3y t =+.13.【试题解析】(I)由频率颁布直方图可知,在抽取的100人中,“体育迷”有25人,从而2×2列联表如下:由2×2列联表中数据代入公式计算,得:222112212211212()100(30104515)100 3.0307525455533n n n n n x n n n n ++++-⨯-⨯==≈⨯⨯⨯因为3.030<3.841,所以,没有理由认为“体育迷”与性别有关.(Ⅱ)由频率分布直方图可知,“超级体育迷”为5人,从而一切可能结果所组成的基本事件空间12132311{(,),(,),(,),(,)a a a a a a a b Ω=12212231,(,),(,),(,),(,),a b a b a b a b3212(,),(,)}a b b b 其中i a 表示男性,1,2,3i =.j b 表示女性,1,2j =.Ω由10个基本事件组成,而且这些事件的出现时等可能的.用A 表示“任选2人中至少有1名是女性”这一事件,则11122122313212{(,),(,),(,),(,),(,),(,),(,)}A a b a b a b a b a b a b b b =∴7()10P A =第11页,共11页。
高考数学回归分析与独立性检验选择题
高考数学回归分析与独立性检验选择题1. 下列关于回归分析的描述中,正确的是:A. 回归分析只能用于变量之间存在线性关系的情况B. 回归分析只能用于变量之间存在正相关关系的情况C. 回归分析只能用于变量之间存在负相关关系的情况D. 回归分析可以用于变量之间存在非线性关系的情况2. 回归分析中的残差是指:A. 实际值与预测值之间的差B. 预测值与平均值之间的差C. 实际值与平均值之间的差D. 预测值与中位数之间的差3. 回归分析中的自变量和因变量是指:A. 自变量是影响因变量的因素,因变量是自变量的结果B. 自变量是因变量的结果,因变量是影响自变量的因素C. 自变量和因变量是相互独立的D. 自变量和因变量是相互依赖的4. 回归分析中的回归系数是指:A. 因变量与自变量之间的相关系数B. 因变量与自变量之间的协方差系数C. 因变量与自变量之间的相关系数和协方差系数之和D. 因变量与自变量之间的协方差系数和标准差之比5. 独立性检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系6. 独立性检验中的卡方检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系7. 独立性检验中的皮尔逊卡方检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系8. 独立性检验中的似然比检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系9. 独立性检验中的费舍尔精确检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系10. 独立性检验中的麦克尼马尔检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系11. 下列关于独立性检验的描述中,正确的是:A. 独立性检验只能用于变量之间存在线性关系的情况B. 独立性检验只能用于变量之间存在正相关关系的情况C. 独立性检验只能用于变量之间存在负相关关系的情况D. 独立性检验可以用于变量之间存在非线性关系的情况12. 独立性检验中的显著性水平是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度13. 独立性检验中的自由度是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度14. 独立性检验中的P值是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度15. 独立性检验中的临界值是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度16. 下列关于独立性检验的描述中,正确的是:A. 独立性检验只能用于变量之间存在线性关系的情况B. 独立性检验只能用于变量之间存在正相关关系的情况C. 独立性检验只能用于变量之间存在负相关关系的情况D. 独立性检验可以用于变量之间存在非线性关系的情况17. 独立性检验中的卡方检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系18. 独立性检验中的皮尔逊卡方检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系19. 独立性检验中的似然比检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系20. 独立性检验中的费舍尔精确检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系21. 下列关于独立性检验的描述中,正确的是:A. 独立性检验只能用于变量之间存在线性关系的情况B. 独立性检验只能用于变量之间存在正相关关系的情况C. 独立性检验只能用于变量之间存在负相关关系的情况D. 独立性检验可以用于变量之间存在非线性关系的情况22. 独立性检验中的显著性水平是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度23. 独立性检验中的自由度是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度24. 独立性检验中的P值是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度25. 独立性检验中的临界值是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度26. 下列关于独立性检验的描述中,正确的是:A. 独立性检验只能用于变量之间存在线性关系的情况B. 独立性检验只能用于变量之间存在正相关关系的情况C. 独立性检验只能用于变量之间存在负相关关系的情况D. 独立性检验可以用于变量之间存在非线性关系的情况27. 独立性检验中的卡方检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系28. 独立性检验中的皮尔逊卡方检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系29. 独立性检验中的似然比检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系30. 独立性检验中的费舍尔精确检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系31. 下列关于独立性检验的描述中,正确的是:A. 独立性检验只能用于变量之间存在线性关系的情况B. 独立性检验只能用于变量之间存在正相关关系的情况C. 独立性检验只能用于变量之间存在负相关关系的情况D. 独立性检验可以用于变量之间存在非线性关系的情况32. 独立性检验中的显著性水平是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度33. 独立性检验中的自由度是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度34. 独立性检验中的P值是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度35. 独立性检验中的临界值是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度36. 下列关于独立性检验的描述中,正确的是:A. 独立性检验只能用于变量之间存在线性关系的情况B. 独立性检验只能用于变量之间存在正相关关系的情况C. 独立性检验只能用于变量之间存在负相关关系的情况D. 独立性检验可以用于变量之间存在非线性关系的情况37. 独立性检验中的卡方检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系38. 独立性检验中的皮尔逊卡方检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系39. 独立性检验中的似然比检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系40. 独立性检验中的费舍尔精确检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系41. 下列关于独立性检验的描述中,正确的是:A. 独立性检验只能用于变量之间存在线性关系的情况B. 独立性检验只能用于变量之间存在正相关关系的情况C. 独立性检验只能用于变量之间存在负相关关系的情况D. 独立性检验可以用于变量之间存在非线性关系的情况42. 独立性检验中的显著性水平是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度43. 独立性检验中的自由度是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度44. 独立性检验中的P值是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度45. 独立性检验中的临界值是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度46. 下列关于独立性检验的描述中,正确的是:A. 独立性检验只能用于变量之间存在线性关系的情况B. 独立性检验只能用于变量之间存在正相关关系的情况C. 独立性检验只能用于变量之间存在负相关关系的情况D. 独立性检验可以用于变量之间存在非线性关系的情况47. 独立性检验中的卡方检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系48. 独立性检验中的皮尔逊卡方检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系49. 独立性检验中的似然比检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系50. 独立性检验中的费舍尔精确检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系。
回归分析+独立性检验大题答案版
1.某公司为了增加销售额,经过了一系列的宣传方案,经统计广告费用x 万元与销售额y 万(2)若广告费用投入8万元,请预测销售额会达到多少万元?参考公式bx y a xn x y x n y xb i n i i ni i-=-⋅-⋅=∑∑==,2211【答案】(1)4.04.1+=x y (2)11.6【解析】 试题分析: (1)求出x,y 的平均数,得到回归系数,即可求销售额y 关于广告费用x 的线性回归方程; (2)把x=8代入,能广告费用投入8万元预测销售额 试题解析:(1)4.0,4.16474=-==-=x b y a b所以销售额y 关于广告费用x 的线性回归方程是4.04.1+=x y (2)广告费用投入8万元,销售额约为6.114.04.1=+=x y 万元考点:线性回归方程已知在全班50人中随机抽取1人,抽到喜爱打篮球的学生的概率为35. (1)请将上表补充完整(不用写计算过程);(2)能否有99.5﹪的把握认为喜爱打篮球与性别有关?说明你的理由. 下面的临界值表供参考:(参考公式:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++)【答案】(1)详见解析;(2)有99.5﹪的把握认为喜爱打篮球与性别有关. 【解析】试题分析:(1)首先通过全班50人中随机抽取1人,抽到喜爱打篮球的学生的概率为35,得出喜爱打篮球的共有30人,进而完善此表;(2)通过列联表代入计算公式,得到2K 的值,再查对临界值表,据此回答能否有99.5﹪的把握认为喜爱打篮球与性别有关.(2)Q 22()()()()()n ad bc K a b c d a c b d -=++++50(2015105)7.87930202525⨯⨯-⨯=≈⨯⨯⨯ ∴有99.5﹪的把握认为喜爱打篮球与性别有关.考点:独立性检验.3.某车间为了制定工时定额,需要确定加工零件抽用时间,为此做了四次试验,得到的数(2)求出回归方程;(3)根据回归方程估计加工10个零件需要多少个小时。
高考试题回归分析,独立性检验
回归分析与独立性检验1.高三年级267位学生参加期末考试,某班37位学生的语文成绩,数学成绩与总成绩在全年级中的排名情况如下图所示,甲、乙、丙为该班三位学生.从这次考试成绩看,①在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是;②在语文和数学两个科目中,丙同学的成绩名次更靠前的科目是.2.根据下面给出的2004年至2013年我国二氧化碳年排放量(单位:万吨)柱形图,以下结论中不正确的是()A.逐年比较,2008年减少二氧化碳排放量的效果最显着B.2007年我国治理二氧化碳排放显现成效C.2006年以来我国二氧化碳年排放量呈减少趋势D.2006年以来我国二氧化碳年排放量与年份正相关3.为了解某社区居民的家庭年收入所年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程ˆˆˆybx a =+ ,其中ˆˆˆ0.76,b a y bx ==- ,据此估计,该社区一户收入为15万元家庭年支出为( )]A .11.4万元B .11.8万元C .12.0万元D .12.2万元4.在画两个变量的散点图时,下面哪个叙述是正确的 ( )A .预报变量在x 轴上,解释变量在y 轴上B .解释变量在x 轴上,预报变量在y 轴上C .可以选择两个变量中任意一个变量在x 轴上D .可以选择两个变量中任意一个变量在y 轴上5.考察棉花种子经过处理跟生病之间的关系得到如下表数据:根据以上数据,则 ( )A .种子经过处理跟是否生病有关B .种子经过处理跟是否生病无关 C .种子是否经过处理决定是否生病 D .以上都是错误的6.变量x 与y 具有线性相关关系,当x 取值16,14,12,8时,通过观测得到y 的值分别为11,9,8,5,若在实际问题中,y 的预报最大取值是10,则x 的最大取值不能超过 ( )A .16B .17C .15D .127.在研究身高和体重的关系时,求得相关指数 2R ___________,可以叙述为“身高解释了64%的体重变化,而随机误差贡献了剩余的36%”所以身高对体重的效应比随机误差的效应大得多。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
专题十一 概率与统计
第三十三讲 回归分析与独立性检验
答案部分
1.C 【解析】因为22.5x =,160y =,所以$160422.570a
=-⨯=,42470166y =⨯+=,选C .
2.B 【解析】∵10.0x =,8.0y =,ˆ0.76b
=,∴ˆ80.76100.4a =-⨯=, ∴回归方程为ˆ0.760.4y
x =+,把15x =代入上式得, ˆ0.76150.411.8y
=?=(万元),选B . 3.A 【解析】由题意可知,相应的回归直线的斜率应为正,排除C 、D .且直线必过点(3,3.5),
代入A 、B 得A 正确.
4.A 【解析】画出散点图知0,0b a <>.
5.D 【解析】因为所有的点都在直线上,这组样本数据完全正相关,故其相关系数为1,故
选D.
6.D 【解析】因为22
2
1
52(6221410)5281636322016363220
χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,
22
2
2
52(4201612)521121636322016363220
χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,
22
2
3
52(824128)52961636322016363220
χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,
22
2
4
52(143062)524081636322016363220
χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,
则有2222
4231χχχχ>>>,所以阅读量与性别关联的可能性最大.
7.D 【解析】由回归方程为$y =0.85x -85.71知y 随x 的增大而增大,所以y 与x 具有正的
线性相关关系,由最小二乘法建立的回归方程得过程知
ˆ()y
bx a bx y bx a y bx =+=+-=-, 所以回归直线过样本点的中心(x ,y ),利用回归方程可以预测估计总体,所以D 不
正确.
8.B 【解析】样本中心点是(3.5,42),则ˆˆ429.4 3.59.1a
y bx =-=-⨯=,所以回归方程是ˆ9.49.1y
x =+,把6x =代入得ˆ65.5y =. 9.【解析】(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为
ˆ30.413.519226.1y
=-+⨯=(亿元). 利用模型②,该地区2018年的环境基础设施投资额的预测值为
ˆ9917.59256.5y
=+⨯=(亿元). (2)利用模型②得到的预测值更可靠. 理由如下:
(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线30.413.5y t =-+上下.
这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据
建立的线性模型ˆ9917.5y
t =+可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理.说明利用模型②得到的预测值更可靠.
以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分. 10.【解析】(Ⅰ)由折线图这数据和附注中参考数据得
4=t ,28)(7
1
2
=-∑=i i t t ,
55.0)(7
12=-∑=i i
y y
,
40.1749.32 2.89==-⨯=,
99.0646
.2255.089
.2≈⨯⨯≈
r .
因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关相当高,从而可以用线性
回归模型拟合y 与t 的关系.
(Ⅱ)由331.17
32.9≈=
y 及(Ⅰ)得7
1
7
2
1
()()
2.89
ˆ0.10328
()i
i i i
i t
t y y b t
t ==--==
≈-∑∑, 92.04103.0331.1ˆˆ≈⨯-≈-=t b y a
. 所以,y 关于t 的回归方程为:t y
10.092.0ˆ+=. 将2016年对应的9=t 代入回归方程得:82.1910.092.0ˆ=⨯+=y
. 所以预测2016年我国生活垃圾无害化处理量将约1.82亿吨.
11.【解析】
(Ⅰ)由散点图可以判断,y c =+适宜作为年销售量y 关于年宣传费x 的
回归方程类型.
(Ⅱ)令w =
y 关于w 的线性回归方程,由于
8
1
8
2
1
()()
108.8
ˆ681.6
()
i
i
i i
i w w y y d
w w ==--==
=-∑∑. ˆˆ56368 6.8100.6c
y dw =-=-⨯=, 所以y 关于w 的线性回归方程为ˆ100.668y w =+,因此y 关于x 的回归方程为
ˆ100.6y
=+ (Ⅲ)(ⅰ)由(Ⅱ)知,当49x =时,年销售量y 的预报值
ˆ100.6576.6y
=+= 年利润z 的预报值
ˆ576.60.24966.32z
=⨯-=. (ⅱ)根据(Ⅱ)得结果知,年利润z 的预报值
ˆ0.2(100.620.12z
x x =+-=-+.
13.6
6.82
=
=,即46.24x =时,ˆz
取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大. 12.【解析】(I ) 由所给数据计算得1
7
t =
(1+2+3+4+5+6+7)=4
1
7
y =
(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3 7
21
1()t t
t =-∑=9+4+1+0+1+4+9=28
7
1
11
()()t t
t y y =--∑=(3)( 1.4)(2)(1)(1)(0.7)-⨯-+-⨯-+-⨯-
00.110.520.93 1.614+⨯+⨯+⨯+⨯=
7
1
11
7
2
1
1
()()
140.528
()t t t
t y y b
t
t ==--==
=-∑∑$,$ 4.30.54 2.3a
y bt =-=-⨯=$. 所求回归方程为$0.5 2.3y t =+.
13.【解析】(I)由频率颁布直方图可知,在抽取的100人中,“体育迷”有25人,从而2×2列
联表如下:
由2×2列联表中数据代入公式计算,得:
222
112212211212()100(30104515)100 3.0307525455533
n n n n n x n n n n ++++-⨯-⨯==≈⨯⨯⨯
因为3.030<3.841,所以,没有理由认为“体育迷”与性别有关.
(II )由频率分布直方图可知,“超级体育迷”为5人,从而一切可能结果所组成的基本事件空间12132311{(,),(,),(,),(,)a a a a a a a b Ω=12212231,(,),(,),(,),(,),a b a b a b a b
3212(,),(,)}a b b b 其中i a 表示男性,1,2,3i =.j b 表示女性,1,2j =.Ω由10个基本
事件组成,而且这些事件的出现时等可能的.用A 表示“任选2人中至少有1名是女性”这一事件,则11122122313212{(,),(,),(,),(,),(,),(,),(,)}A a b a b a b a b a b a b b b = ∴7
()10
P A =。