习题第33讲 回归分析与独立性检验--高考数学习题和答案
高考数学基础训练:回归分析含详解
高考数学基础训练:回归分析一、单选题1.某工厂对一批产品进行了抽样检测.右图是根据抽样检测后的产品净重(单位:克)数据绘制的频率分布直方图,其中产品净重的范围是[96,106],样本数据分组为[96,98),[98,100),[100,102),[102,104),[104,106],已知样本中产品净重小于100克的个数是36,则样本中净重大于或等于98克并且小于104克的产品的个数是.A .90B .75C .60D .452.对两个变量y 与x 进行回归分析,分别选择不同的模型,它们的相关系数r 如下,其中拟合效果最好的模型是()A .0.2B .0.8C .-0.98D .-0.73.为研究变量x ,y 的相关关系,收集得到下面五个样本点(x ,y ):x 99.51010.511y1110865若由最小二乘法求得y 关于x 的回归直线方程为 3.2y x a=-+,则据此计算残差为0的样本点是()A .(9,11)B .(10,8)C .(10.5,6)D .(11.5)4.据一组样本数据()11,x y ,()22,x y ,…,(),n n x y ,求得经验回归方程为ˆ 1.50.5yx =+,且3x =.现发现这组样本数据中有两个样本点()1.2,2.2和()4.8,7.8误差较大,去除后重新求得的经验回归直线l 的斜率为1.2,则()A .变量x 与y 具有正相关关系B .去除两个误差较大的样本点后,重新求得的回归方程仍为ˆ 1.50.5yx =+C .去除两个误差较大的样本点后,y 的估计值增加速度变快D .去除两个误差较大的样本点后,相应于样本点()2,3.75的残差为0.055.对于样本相关系数,下列说法错误的是()A .可以用来判断成对样本数据相关的正负性B .可以是正的,也可以是负的C .样本相关系数越大,成对样本数据的线性相关程度也越高D .取值范围是[]1,1-6.下列说法中正确的是A .先把高二年级的2000名学生编号:1到2000,再从编号为1到50的学生中随机抽取1名学生,其编号为m ,然后抽取编号为50,100,150,m m m +++ 的学生,这种抽样方法是分层抽样法B .线性回归直线ˆˆy bxa =+不一定过样本中心()x y C .若两个随机变量的线性相关性越强,则相关系数r 的值越接近于1D .若一组数据2,4,a ,8的平均数是5,则该组数据的方差也是57.某同学用收集到的6组数据对(),(1,2,3,4,5,6)i i x y i =制作成如图所示的散点图(点旁的数据为该点坐标),并由最小二乘法计算得到回归直线1l 的方程:µµ11y b x a =+$,相关系数为1r ,相关指数为21R :经过残差分析确定点E 为“离群点”(对应残差过大的点),把它去掉后,再用剩下的5组数据计算得到回归直线2l 的方程:µµ22y b x a =+$,相关系数为2r ,相关指数为22R .则以下结论中,正确的是()①10r >,20r >;②µ10b >,µ20b >;③µµ12b b >;④2212R R >A .①②B .①②③C .②④D .②③④8.已知变量y 关于x 的非线性经验回归方程为0.5ˆe bx y-=,其一组数据如下表所示:x 1234ye3e 4e 5e 若5x =,则预测y 的值可能为()A .152e B .112e C .7e D .5e 第II 卷(非选择题)请点击修改第II 卷的文字说明二、填空题9.高中女学生的身高预报体重的回归方程是 0.7575.5y x =-(其中x , y 的单位分别是cm ,kg ),则此方程在样本()160,46处残差的绝对值是______.10.甲、乙、丙、丁四位同学在建立变量x ,y 的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R 2分别如下表:甲乙丙丁R 20.980.780.500.85建立的回归模型拟合效果最好的同学是__________.11.在一组样本数据()11,x y ,()22,x y ,…,(),n n x y (122,,,,n n x x x ≥⋅⋅⋅不全相等)的散点图中,若所有样本点()(),1,2,3,,i i x y i n =⋅⋅⋅都在直线210x y +-=上,则这组样本数据的相关系数r 为______.12.在一组样本数据()11,x y ,()22,x y ,…,()66,x y 的散点图中,若所有样本点(),i i x y ()1,2,,6i = 都在曲线212y bx =-附近波动.经计算6112i i x ==∑,6114i i y ==∑,62123ii x==∑,则实数b 的值为________.三、解答题13.某科技公司研发了一项新产品A ,经过市场调研,对公司1月份至6月份销售量及销售单价进行统计,销售单价x (千元)和销售量y (千件)之间的一组数据如下表所示:月份i 123456销售单价i x 99.51010.5118销售量iy 111086515(1)试根据1至5月份的数据,建立y 关于x 的回归直线方程;(2)若由回归直线方程得到的估计数据与剩下的检验数据的误差不超过065.千件,则认为所得到的回归直线方程是理想的,试问(1)中所得到的回归直线方程是否理想?参考公式:回归直线方程ˆˆˆybx a =+,其中i ii 122ii 1ˆnnx y n x yb xnx==-⋅⋅=-∑∑.参考数据:5i i i 1392x y ==∑,52i i 1502.5x ==∑.14.为了巩固拓展脱贫攻坚的成果,振兴乡村经济,某知名电商平台决定为脱贫乡村的特色水果开设直播带货专场.该特色水果的热卖黄金时段为2021年7月10日至9月10日,为了解直播的效果和关注度,该电商平台统计了已直播的2021年7月10日至7月14日时段中的相关数据,这5天的第x 天到该电商平台专营店购物的人数y (单位:万人)的数据如下表:日期7月10日7月11日7月12日7月13日7月14日第x 天12345人数y (单位:万人)75849398100(1)依据表中的统计数据,请判断该电商平台的第x 天与到该电商平台专营店购物的人数y (单位:万人)是否具有较高的线性相关程度?(参考:若0.30.75r <<,则线性相关程度一般,若0.75r >,则线性相关程度较高,计算r 时精确度为0.01)(2)求购买人数y 与直播的第x 天的线性回归方程;用样本估计总体,请预测从2021年7月10日起的第38天到该专营店购物的人数(单位:万人).参考数据:521(434i iy y =-=∑,51(64i i i x x y y =--=∑65.979≈.附:相关系数()()ni i x x y y r --=∑,回归直线方程的斜率121()()()niii nii x x y y bx x ==--=-∑∑ ,截距a y bx =-$$.15.近年来,明代著名医药学家李时珍故乡黄冈市蕲春县大力发展大健康产业,蕲艾产业化种植已经成为该县脱贫攻坚的主要产业之一,已知蕲艾的株高y (单位:cm)与一定范围内的温度x (单位:℃)有关,现收集了蕲艾的13组观测数据,得到如下的散点图:现根据散点图利用y a =+或dy c x=+建立y 关于x 的回归方程,令s =1t x=得到如下数据:xyst10.15109.943.040.16113niii s ys y=-⋅∑13113iii t yt y=-⋅∑1322113ik ss=-∑1322113ii t t =-∑ 1322113ii yy =-∑13.94-2.111.670.2121.22且(i s ,i y )与(i t ,i y )(i =1,2,3,…,13)的相关系数分别为1r ,2r ,且2r =﹣0.9953.(1)用相关系数说明哪种模型建立y 与x 的回归方程更合适;(2)根据(1)的结果及表中数据,建立 y 关于x 的回归方程;(3)已知蕲艾的利润z 与x 、y 的关系为1202z y x =-,当x 为何值时,z 的预报值最大.参考数据和公式:0.21×21.22=4.4562,11.67×21.22=247.637415.7365,对于一组数据(i u ,i v )(i =1,2,3,…,n ),其回归直线方程v u αβ=+的斜率和截距的最小二乘法估计分别为 1221ni i i nii u vnu v unuβ==-⋅=-∑∑, v u αβ=-,相关系数ni i u vnu vr -⋅∑.参考答案:1.A 【解析】【详解】样本中产品净重小于100克的频率为(0.050+0.100)×2=0.3,频数为36,∴样本总数为.∵样本中净重大于或等于98克并且小于104克的产品的频率为(0.100+0.150+0.125)×2=0.75,∴样本中净重大于或等于98克并且小于104克的产品的个数为120×0.75=90.考点:频率分布直方图.2.C 【解析】【分析】由相关系数的绝对值越大,越具有强大相关性,即可求解【详解】∵相关系数的绝对值越大,越具有强大相关性,C 相关系数的绝对值最大约接近1,∴C 拟合程度越好.故选:C 3.B 【解析】【分析】先求出线性方程的样本中心点,从而可求得 3.240y x =-+,再根据残差的定义可判断.【详解】由题意可知,99.51010.511105x ++++==,111086585y ++++==所以线性方程的样本中心点为(10,8),因此有 8 3.21040aa =-⨯+⇒=,所以 3.240y x =-+,在收集的5个样本点中,(10,8)一点在 3.240y x =-+上,故计算残差为0的样本点是(10,8).故选:B 4.A 【解析】【分析】由条件可知样本中心不变,可求出新的回归直线方程,即可判断.【详解】因为重新求得的经验回归直线l 的斜率为1.2,所以变量x 与y 具有正相关关系,故A 正确;当3x =时,315055y ..=⨯+=,设去掉两个误差较大的样本点后,横坐标的平均值为x ',纵坐标的平均值为y ',则12636322n x x x x n n n ++⋅⋅⋅+--=--'==,1210510522n y y y n n n y ++⋅⋅⋅+--'==--=,因为去除两个误差较大的样本点后,重新求得回归直线l 的斜率为1.2,所以ˆ53 1.2a =⨯+,解得 1.4ˆa =,所以去除两个误差较大的样本点后的经验回归方程为ˆ 1.2 1.4yx =+,故B 错误;因为1.5 1.2>,所以去除两个误差较大的样本点后y 的估计值增加速度变慢,故C 错误;因为ˆ 1.22 1.4 3.8y=⨯+=,所以ˆ 3.75 3.80.05y y -=-=-,故D 错误.故选:A.5.C 【解析】【分析】根据相关系数的概念,依次分析各选项即可得答案.【详解】解:对于A 选项,当相关系数为正时,表明变量之间是正相关,相关系数为负数时,表明相关系数为负数,故A 选项正确;对于B ,D 选项,相关系数范围是[]1,1-,故可以为正,也可以为负,故B ,D 选项正确;对于C 选项,当相关系数为负数时,样本相关系数越大,线性相关性就越弱,故C 选项错误;故选:C6.D 【解析】A 是系统抽样,B 选项线性回归直线ˆˆy bxa =+一定过样本中心(),x y ,C 选项若两个随机变量的线性相关性越强,则相关系数r 的绝对值越接近于1,D 选项若一组数据2,4,a ,8的平均数是5,求出a ,则该组数据的方差即可求解.【详解】A 选项:先把高二年级的2000名学生编号:1到2000,再从编号为1到50的学生中随机抽取1名学生,其编号为m ,然后抽取编号为50,100,150,m m m +++ 的学生,这种抽样方法是系统抽样法,所以该选项不正确;B 选项:线性回归直线ˆˆy bxa =+一定过样本中心(),x y ,所以该选项不正确;C 选项:若两个随机变量的线性相关性越强,则相关系数r 的绝对值越接近于1,所以该选项不正确;D 选项:若一组数据2,4,a ,8的平均数是5,24854a +++=,解得6a =,则该组数据的方差是()()()()22222545658554-+-+-+-=,所以该选项正确.故选:D 【点睛】此题考查抽样方法,回归直线,相关关系的辨析,求平均数和方差,关键在于熟练掌握相关概念和公式,准确计算.7.B 【解析】【分析】根据散点图逐项进行判断即可.【详解】①:由散点图可知,,x y 之间是正相关关系,所以10r >,20r >,故①正确;②③:由散点图可知,回归直线的斜率是正数,且1l 的斜率大于2l 的斜率,所以µ10b >,µ20b >,µµ12b b >,故②③正确;④:由散点图可知,去掉“离群点”E 后,相关性更强,拟合的效果更好,所以2212R R <,故④错误;故选:B.8.C 【解析】【分析】将0.5ˆe bx y-=两边同时取对数,得ln 0.5y bx =-,设0.5z bx =-,由样本中心()x z 必在回归直线0.5z bx =-上,可求出b ,从而即可求解.【详解】解:由题意,将0.5ˆe bx y-=两边同时取对数,得ln 0.5y bx =-,设0.5z bx =-,则x1234z13451234 2.54x +++==,13453.254z +++==,由0.5z bx =-,得3.25 2.50.5b =-,解得 1.5b =,所以 1.50.5e x y -=,所以当5x =时, 1.550.57e e y ⨯-==,故选:C.9.1.5##32【解析】【分析】利用回归直线方程,求出160x =的估计值,然后求解残差的绝对值.【详解】由样本数据得到,女大学生的身高预报体重的回归方程是 0.7575.5y x =-,当160x =时, 0.7516075.544.5y =⨯-=,此方程在样本()160,46处残差的绝对值:44.546 1.5-=.故答案为:1.5.10.选甲相关指数R 2越大,表示回归模型拟合效果越好.【解析】【分析】相关指数越大,相关性越强,拟合效果越好.根据相关指数的大小即可判断.【详解】相关指数2R 越大,相关性越强,回归模型拟合效果越好,所以效果最好的是甲.【点睛】如果两个变量间的关系是相关关系,相关指数2R 越大,相关系数r 越接近1,残差平方和越接近0,都代表拟合效果越好.11.1-【解析】【分析】根据直线斜率可知两个变量负相关,结合数据点都在直线上可确定1r =-.【详解】直线210x y +-=的斜率20k =-<,∴这两个变量成负相关,0r ∴<,又所有样本点都在直线210x y +-=上,1r ∴=-.故答案为:1-.12.1723【解析】【分析】设2t x =,可得回归直线方程为12y bt =-,求出样本中心点(),t y 代入可得b 的值.【详解】令2t x =则212y bx =-即12y bt =-,6212366i i x t ===∑,61147663ii y y ====∑,因为样本中心点237,63⎛⎫ ⎪⎝⎭在回归直线12y bt =-上,所以7231362b =-,可得:1723b =,故答案为:1723.13.(1)ˆ3240y x =-+.;(2)是.【解析】【分析】(1)先由表中的数据求出,x y ,再利用已知的数据和公式求出 ,ba ,从而可求出y 关于x 的回归直线方程;(2)当8x =时,求出 y 的值,再与15比较即可得结论【详解】(1)因为()199.51010.511105x =++++=,()1111086585y =++++=,所以23925108ˆ 3.2502.5510b -⨯⨯==--⨯,得()ˆ8 3.21040a=--⨯=,于是y 关于x 的回归直线方程为 3.240ˆyx =-+;(2)当8x =时,ˆ 3.284014.4y=-⨯+=,则ˆ14.4150.60.65yy -=-=<,故可以认为所得到的回归直线方程是理想的.14.(1)具有较高的线性相关程度(2) 6.470.8y x =+,314万人【解析】【分析】(1)由已知计算相关系数r 即可.(2)由列表计算 a、b ,可得线性回归方程进一步可得解.(1)由表中数据可得3,90x y ==,所以521()10i i x x =-=∑,又55211()434,()()64i i i i i y y x x y y ==-=--=∑∑,所以()()50.970.75i i x x y y r --=>∑,所以该电商平台直播黄金时段的天数x 与购买人数y 具有较高的线性相关程度.所以可用线性回归模型拟合人数y 与天数x 之间的关系.(2)由表中数据可得()()()5152164ˆ 6.410i i i i i x x y y b x x ==--===-∑∑,则ˆˆ90 6.4370.8a y bx =-=-⨯=,所以 6.470.8y x =+,令38x =,可得 6.4387031ˆ.84y =⨯+=(万人)15.(1)用d y c x =+模型建立y 与x 的回归方程更合适;(2)10ˆ111.54y x =-;(3)当温度为20时这种草药的利润最大.【解析】【分析】(1)利用相关系数1r ,2r ,比较1||r 与2||r 的大小,得出用模型d y c x=+建立回归方程更合适;(2)根据(1)的结论求出y 关于x 的回归方程即可;(3)由题意写出利润函数ˆz ,利用基本不等式求得利润z 的最大值以及对应的x 值.【详解】(1)由题意知20.9953r =-,10.8858r =,因为121r r <<,所有用d y c x =+模型建立y 与x 的回归方程更合适.(2)因为1311322113 2.1ˆ100.2113i i i i i t y t yd tt ==-⋅-===--∑∑,ˆˆ109.94100.16111.54cy dt =-=+⨯=,所以ˆy 关于x 的回归方程为10ˆ111.54y x=-(3)由题意知11012020(111.54ˆˆ)22z y x x x =-=--20012230.8()2x x =-+2230.8202210.8≤-=,所以22.8ˆ10z≤,当且仅当20x =时等号成立,所以当温度为20时这种草药的利润最大.。
回归分析及独立性检验的基本知识点及习题集锦
回归分析的基本知识点及习题本周题目:回归分析的基本思想及其初步应用本周重点:(1)通过对实际问题的分析,了解回归分析的必要性与回归分析的一般步骤;了解线性回归模型与函数模型的区别;(2)尝试做散点图,求回归直线方程;(3)能用所学的知识对实际问题进行回归分析,体会回归分析的实际价值与基本思想;了解判断刻画回归模型拟合好坏的方法――相关指数和残差分析。
本周难点:(1)求回归直线方程,会用所学的知识对实际问题进行回归分析.(2)掌握回归分析的实际价值与基本思想.(3)能运用自己所学的知识对具体案例进行检验与说明.(4)残差变量的解释;(5)偏差平方和分解的思想;本周内容:一、基础知识梳理1.回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线。
求回归直线方程的一般步骤:①作出散点图(由样本点是否呈条状分布来判断两个量是否具有线性相关关系),若存在线性相关关系→②求回归系数→③写出回归直线方程,并利用回归直线方程进行预测说明.2.回归分析:对具有相关关系的两个变量进行统计分析的一种常用方法。
建立回归模型的基本步骤是:①确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;②画好确定好的解释变量和预报变量的散点图,观察它们之间的关系(线性关系).③由经验确定回归方程的类型.④按一定规则估计回归方程中的参数(最小二乘法);⑤得出结论后在分析残差图是否异常,若存在异常,则检验数据是否有误,后模型是否合适等.3.利用统计方法解决实际问题的基本步骤:(1)提出问题;(2)收集数据;(3)分析整理数据;(4)进行预测或决策。
4.残差变量的主要来源:(1)用线性回归模型近似真实模型(真实模型是客观存在的,通常我们并不知道真实模型到底是什么)所引起的误差。
可能存在非线性的函数能够更好地描述与之间的关系,但是现在却用线性函数来表述这种关系,结果就会产生误差。
十年高考理科数学真题 专题十一 概率与统计 三十三 回归分析与独立性检验及答案
专题十一 概率与统计第三十三讲 回归分析与独立性检验一、选择题1.(2017山东)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为ˆˆˆy bx a =+.已知101225i i x ==∑,1011600i i y ==∑,ˆ4b =.该班某学生的脚长为24,据此估计其身高为A .160B .163C .166D .1702.(2015福建)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归本线方程ˆˆˆybx a =+ ,其中ˆˆˆ0.76,b a y bx ==- ,据此估计,该社区一户收入为15万元家庭年支出为A .11.4万元B .11.8万元C .12.0万元D .12.2万元 3.(2014重庆)已知变量x 与y 正相关,且由观测数据算得样本的平均数3x =, 3.5y =,则由该观测数据算得的线性回归方程可能为A .$0.4 2.3y x =+B .$2 2.4y x =-C .$29.5y x =-+D .$0.3 4.4y x =-+ 4.(2014湖北)根据如下样本数据得到的回归方程为ˆybx a =+,则 A .0a >,0b < B .0a >,0b > C .0a <,0b < D .0a <,0b > 5.(2012新课标)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线112y x =+上,则这组样本数据的样本相关系数为A .−1B .0C .12D .16.(2014江西)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量之间的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是7.(2012湖南)设某大学的女生体重y (单位:kg )与身高x (单位:cm )具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为$y =0.85x -85.71,则下列结论中不正确...的是 A .y 与x 具有正的线性相关关系 B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1cm ,则其体重约增加0.85kgD .若该大学某女生身高为170cm ,则可断定其体重必为58.79kg 8.(2011山东)某产品的广告费用x 与销售额y 的统计数据如下表广告费用x (万元) 4 2 3 5 销售额y (万元)49263954根据上表可得回归方程ˆˆˆy bx a =+中的ˆb 为9.4,据此模型预报广告费用为6万元时销售额为A .63.6万元B .65.5万元C .67.7万元D .72.0万元二、解答题9.(2018全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1217,,…,)建立模型①:ˆ30.413.5=-+yt ;根据2010年至2016年的数据(时间变量t 的值依次为127,,…,)建立模型②:ˆ9917.5=+yt . (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.10.(2016年全国III)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图(Ⅰ)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (Ⅱ)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:719.32ii y==∑,7140.17i i i t y ==∑,721()0.55ii y y =-=∑,7≈2.646.参考公式:相关系数12211()()()(yy)ni ii n ni ii i t t y y r t t ===--=--∑∑∑,回归方程y a bt =+)))中斜率和截距的最小二乘估计公式分别为:121()()()nii i nii tt y y b tt ==--=-∑∑),=.a y bt -)))11.(2015新课标1)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的年宣传费i x 和年销售量i y (i =1,2,···,8)数据作了初步处理,得到下面的散点图及一些统计量的值.xyw821()ii x x =-∑821()ii w w =-∑81()()iii x x yy =--∑81()()iii w w yy =--∑46.65636.8289.8 1.61469 108.8表中i i w x =w =1881i i w =∑.(Ⅰ)根据散点图判断,y a bx =+与y c x =+哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由) (Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立y 关于x 的回归方程;(Ⅲ)已知这种产品的年利率z 与x 、y 的关系为0.2z y x =-.根据(Ⅱ)的结果回答下列问题:(ⅰ)年宣传费x =49时,年销售量及年利润的预报值是多少? (ⅱ)年宣传费x 为何值时,年利率的预报值最大?附:对于一组数据11(,)u v ,22(,)u v ,⋅⋅⋅,(,)n n u v ,其回归线v u αβ=+的斜率和截距的最小二乘估计分别为121()()ˆ()niii nii u u v v u u β==--=-∑∑,ˆˆv u αβ=-. 12.(2014新课标2)某地区2007年至2013年农村居民家庭纯收入y (单位:千元)的数据如下表:(Ⅰ)求y 关于t 的线性回归方程;(Ⅱ)利用(Ⅰ)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入. 附:回归直线的斜率和截距的最小二乘估计公式分别为:()()()121nii i ni i tty y b t t ∧==--=-∑∑,ˆˆay bt =- 13.(2012辽宁)电视传媒公司为了解某地区电视观众对某体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.(I )根据已知条件完成下面22⨯列联表,并据此资料你是否认为“体育迷”与性别有关?非体育迷 体育迷 合计 男 女合计(II )将日均收看该体育节目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性.若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.21212211222112)(++++-=n n n n n n n n n χ, 附:专题十一 概率与统计第三十三讲 回归分析与独立性检验答案部分1.C 【解析】因为22.5x =,160y =,所以$160422.570a=-⨯=,42470166y =⨯+=,选C .2.B 【解析】∵10.0x =,8.0y =,ˆ0.76b=,∴ˆ80.76100.4a =-⨯=, ∴回归方程为ˆ0.760.4yx =+,把15x =代入上式得, )(2k P ≥χ 0.050.01k3.841 6.635ˆ0.76150.411.8y=?=(万元),选B . 3.A 【解析】由题意可知,相应的回归直线的斜率应为正,排除C 、D .且直线必过点(3,3.5),代入A 、B 得A 正确.4.A 【解析】画出散点图知0,0b a <>.5.D 【解析】因为所有的点都在直线上,这组样本数据完全正相关,故其相关系数为1,故选D.6.D 【解析】因为222152(6221410)5281636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,222252(4201612)521121636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,222352(824128)52961636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,222452(143062)524081636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,则有22224231χχχχ>>>,所以阅读量与性别关联的可能性最大.7.D 【解析】由回归方程为$y =0.85x -85.71知y 随x 的增大而增大,所以y 与x 具有正的线性相关关系,由最小二乘法建立的回归方程得过程知ˆ()ybx a bx y bx a y bx =+=+-=-, 所以回归直线过样本点的中心(x ,y ),利用回归方程可以预测估计总体,所以D 不正确.8.B 【解析】样本中心点是(3.5,42),则ˆˆ429.4 3.59.1ay bx =-=-⨯=,所以回归方程是ˆ9.49.1yx =+,把6x =代入得ˆ65.5y =. 9.【解析】(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为ˆ30.413.519226.1y=-+⨯=(亿元). 利用模型②,该地区2018年的环境基础设施投资额的预测值为ˆ9917.59256.5y=+⨯=(亿元).(2)利用模型②得到的预测值更可靠. 理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线30.413.5y t =-+上下.这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型ˆ9917.5yt =+可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理.说明利用模型②得到的预测值更可靠.以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分. 10.【解析】(Ⅰ)由折线图这数据和附注中参考数据得4=t ,28)(712=-∑=i i t t ,55.0)(712=-∑=i iy y,40.1749.32 2.89==-⨯=,99.0646.2255.089.2≈⨯⨯≈r .因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关相当高,从而可以用线性回归模型拟合y 与t 的关系.(Ⅱ)由331.1732.9≈=y 及(Ⅰ)得71721()()2.89ˆ0.10328()ii i ii tt y y b tt ==--==≈-∑∑, 92.04103.0331.1ˆˆ≈⨯-≈-=t b y a. 所以,y 关于t 的回归方程为:t y10.092.0ˆ+=. 将2016年对应的9=t 代入回归方程得:82.1910.092.0ˆ=⨯+=y. 所以预测2016年我国生活垃圾无害化处理量将约1.82亿吨.11.【解析】(Ⅰ)由散点图可以判断,y c =+适宜作为年销售量y 关于年宣传费x 的回归方程类型.(Ⅱ)令w =y 关于w 的线性回归方程,由于81821()()108.8ˆ681.6()iii ii w w y y dw w ==--===-∑∑. ˆˆ56368 6.8100.6cy dw =-=-⨯=, 所以y 关于w 的线性回归方程为ˆ100.668y w =+,因此y 关于x 的回归方程为ˆ100.6y=+ (Ⅲ)(ⅰ)由(Ⅱ)知,当49x =时,年销售量y 的预报值ˆ100.6576.6y=+= 年利润z 的预报值ˆ576.60.24966.32z=⨯-=. (ⅱ)根据(Ⅱ)得结果知,年利润z 的预报值ˆ0.2(100.620.12zx x =+-=-+.13.66.82==,即46.24x =时,ˆz取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大. 12.【解析】(I ) 由所给数据计算得17t =(1+2+3+4+5+6+7)=4 17y =(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3 7211()t tt =-∑=9+4+1+0+1+4+9=287111()()t tt y y =--∑=(3)( 1.4)(2)(1)(1)(0.7)-⨯-+-⨯-+-⨯-00.110.520.93 1.614+⨯+⨯+⨯+⨯=71117211()()140.528()t t tt y y btt ==--===-∑∑$,$ 4.30.54 2.3ay bt =-=-⨯=$. 所求回归方程为$0.5 2.3y t =+.13.【解析】(I)由频率颁布直方图可知,在抽取的100人中,“体育迷”有25人,从而2×2列联表如下:由2×2列联表中数据代入公式计算,得:222112212211212()100(30104515)100 3.0307525455533n n n n n x n n n n ++++-⨯-⨯==≈⨯⨯⨯因为3.030<3.841,所以,没有理由认为“体育迷”与性别有关.(II )由频率分布直方图可知,“超级体育迷”为5人,从而一切可能结果所组成的基本事件空间12132311{(,),(,),(,),(,)a a a a a a a b Ω=12212231,(,),(,),(,),(,),a b a b a b a b3212(,),(,)}a b b b 其中i a 表示男性,1,2,3i =.j b 表示女性,1,2j =.Ω由10个基本事件组成,而且这些事件的出现时等可能的.用A 表示“任选2人中至少有1名是女性”这一事件,则11122122313212{(,),(,),(,),(,),(,),(,),(,)}A a b a b a b a b a b a b b b = ∴7()10P A =。
2020高考数学三轮冲刺 专题 回归分析及独立性检验练习(含解析)
回归分析及独立性检验一、选择题(本大题共12小题,共60分)1. 设某中学的高中女生体重单位:与身高单位:具有线性相关关系,根据一组样本数据2,3,,,用最小二乘法近似得到回归直线方程为,则下列结论中不正确的是A. y与x具有正线性相关关系B. 回归直线过样本的中心点C. 若该中学某高中女生身高增加1cm,则其体重约增加D. 若该中学某高中女生身高为160cm,则可断定其体重必为(正确答案)D【分析】本题考查了回归分析与线性回归方程的应用问题,是基础题目根据回归分析与线性回归方程的意义,对选项中的命题进行分析、判断正误即可.【解答】解:由于线性回归方程中x的系数为,因此y与x具有正的线性相关关系,A正确;由线性回归方程必过样本中心点,因此B正确;由线性回归方程中系数的意义知,x每增加1cm,其体重约增加,C正确;当某女生的身高为160cm时,其体重估计值是,而不是具体值,因此D错误.故选:D.2. 为了研究某班学生的脚长单位:厘米和身高单位:厘米的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其回归直线方程为,已知,,,该班某学生的脚长为24,据此估计其身高为A. 160B. 163C. 166D. 170(正确答案)C解:由线性回归方程为,则,,则数据的样本中心点,由回归直线方程样本中心点,则,回归直线方程为,当时,,则估计其身高为166,故选C.由数据求得样本中心点,由回归直线方程必过样本中心点,代入即可求得,将代入回归直线方程即可估计其身高.本题考查回归直线方程的求法及回归直线方程的应用,考查计算能力,属于基础题.3. 为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:万元万元据上表得回归直线方程,其中,,据此估计,该社区一户收入为15万元家庭年支出为A. 万元B. 万元C. 万元D. 万元(正确答案)B解:由题意可得,,代入回归方程可得,回归方程为,把代入方程可得,故选:B.由题意可得和,可得回归方程,把代入方程求得y值即可.本题考查线性回归方程,涉及平均值的计算,属基础题.4. 下列说法错误的是A. 回归直线过样本点的中心B. 两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于1C. 在回归直线方程中,当解释变量x每增加1个单位时,预报变量平均增加个单位D. 对分类变量X与Y,随机变量的观测值k越大,则判断“X与Y有关系”的把握程度越小(正确答案)D解:回归直线过样本点的中心,正确;B.两个随机变量相关性越强,则相关系数的绝对值越接近1,因此正确;C.在线性回归方程中,当x每增加1个单位时,预报量平均增加个单位,正确;D.对分类变量X与Y的随机变量的观测值k来说,k越大,“X与Y有关系”可信程度越大,因此不正确.综上可知:只有D不正确.故选:D.利用线性回归的有关知识即可判断出.本题考查了线性回归的有关知识,考查了推理能力,属于基础题.5. 某产品的广告费用x与销售额y的统计数据如下表:广告费用万元销售额万元根据上表可得回归方程中的b为,据此模型预报广告费用为6万元时销售额为A. 万元B. 万元C. 万元D. 万元(正确答案)A解:,,数据的样本中心点在线性回归直线上,回归方程中的b为,,,线性回归方程是,广告费用为6万元时销售额为,故选A.首先求出所给数据的平均数,得到样本中心点,根据线性回归直线过样本中心点,求出方程中的一个系数,得到线性回归方程,把自变量为6代入,预报出结果.本题考查线性回归方程的求法和应用,是一个基础题,本题解答关键是利用线性回归直线必定经过样本中心点.6. 观察下面频率等高条形图,其中两个分类变量x,y之间关系最强的是A. B.C. D.(正确答案)D解:在频率等高条形图中,与相差很大时,我们认为两个分类变量有关系,四个选项中,即等高的条形图中,所占比例相差越大,则分类变量x,y关系越强,故选D.在频率等高条形图中,与相差很大时,我们认为两个分类变量有关系,即可得出结论.本题考查独立性检验内容,使用频率等高条形图,可以粗略的判断两个分类变量是否有关系,但是这种判断无法精确的给出所的结论的可靠程度.7. 某小卖部销售一品牌饮料的零售价元瓶与销量瓶的关系统计如下:零售价瓶销量瓶已知x,y的关系符合线性回归方程,其中,当单价为元时,估计该小卖部销售这种品牌饮料的销量为A. 20B. 22C. 24D. 26(正确答案)D解:;,,回归直线方程为:,当时,,故选:D.利用平均数公式计算平均数,,利用求出a,即可得到回归直线方程,把代入回归方程求出y值.本题考查回归方程的求法,考查学生的计算能力,运算要细心.8. 为考察A、B两种药物预防某疾病的效果,进行动物试验,分别得到如下等高条形图:根据图中信息,在下列各项中,说法最佳的一项是A. 药物A、B对该疾病均没有预防效果B. 药物A、B对该疾病均有显著的预防效果C. 药物A的预防效果优于药物B的预防效果D. 药物B的预防效果优于药物A的预防效果(正确答案)C解:根据两个表中的等高条形图知,药物A实验显示不服药与服药时患病的差异较药物B实验显示明显大,药物A的预防效果优于药物B的预防效果.故选:C.根据两个表中的等高条形图看药物A的预防效果优于药物B的预防效果.本题考查了等高条形图的应用问题,是基础题.9. 下列说法错误的是A. 回归直线过样本点的中心B. 两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于1C. 对分类变量X与Y,随机变量的观测值越大,则判断“X与Y有关系”的把握程度越小D. 在回归直线方程中,当解释变量x每增加1个单位时预报变量平均增加个单位(正确答案)C解:回归直线过样本点的中心,正确;B.两个随机变量相关性越强,则相关系数的绝对值越接近1,因此正确;C.对分类变量X与Y的随机变量的观测值k来说,k越大,“X与Y有关系”可信程度越大,因此不正确;D.在线性回归方程中,当x每增加1个单位时,预报量平均增加个单位,正确.综上可知:只有C不正确.故选:C.利用线性回归的有关知识即可判断出.本题考查了线性回归的有关知识,考查了推理能力,属于中档题.10. 在利用最小二乘法求回归方程时,用到了如表中的5组数据,则表格a中的值为A. 68B. 70C. 75D. 72(正确答案)A解:由题意可得,,因为回归直线方程,过样本点的中心点,所以,解得故选A.由题意回归直线方程,过样本点的中心点,即可得a的值.本题考查线性回归方程,利用回归直线过样本点的中心点是解决问题的关键,属基础题.11. 如表提供了某厂节能降耗改造后在生产A产品过程中记录的产量吨与相应的生产能耗吨的几组对应数据,根据表中提供的数据,求出y关于x的线性回归方程为,则下列结论错误的是A. 线性回归直线一定过点B. 产品的生产能耗与产量呈正相关C. t的取值必定是D. A产品每多生产1吨,则相应的生产能耗约增加吨(正确答案)C解:,则,即线性回归直线一定过点,故A正确,,产品的生产能耗与产量呈正相关,故B正确,,得,故C错误,A产品每多生产1吨,则相应的生产能耗约增加吨,故D正确故选:C根据回归直线的性质分别进行判断即可.本题主要考查命题的真假判断,根据回归直线的性质分别进行判断是解决本题的关键比较基础.12. 已知x,y的取值如表所示,若y与x线性相关,且,则A. B. C. D.(正确答案)A解:由图表知,,,代入,得,解得.故选:A.由图表求得,,代入回归直线方程得答案.本题考查线性回归方程,关键是明确线性回归直线恒过样本中心点,是基础题.二、填空题(本大题共4小题,共20分)13. 给出下列命题:线性相关系数r越大,两个变量的线生相关性越强;反之,线性相关性越弱;由变量x和y的数据得到其回归直线方程l:,则l一定经过点;从匀速传递的产品生产流水线上,质检员每10分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;在回归分析模型中,残差平方和越小,说明模型的拟合效果越好;在回归直线方程中,当解释变量x每增加一个单位时,预报变量增加个单位;其中真命题的序号是______ .(正确答案)解:线性相关系数越大,两个变量的线性相关性越强,故不正确;由变量x和y的数据得到其回归直线方程l:,则l一定经过点,故正确;从匀速传递的产品生产流水线上,质检员每10分钟从中抽取一件产品进行某项指标检测,这样的抽样不是分层抽样,故不正确;可用残差平方和判断模型的拟合效果,残差平方和越小,模型的拟合效果越好,故正确;在回归直线方中,当解释变量x每增加一个单位时,预报变量平均增加个单位,故正确.故答案为:.线性相关系数越大,两个变量的线性相关性越强;回归直线方程l:,一定经过样本中心点;从匀速传递的产品生产流水线上,质检员每10分钟从中抽取一件产品进行某项指标检测,这样的抽样系统抽样;可用残差平方和判断模型的拟合效果,残差平方和越小,模型的拟合效果越好;在回归直线方中,当解释变量x每增加一个单位时,预报变量平均增加个单位.本题考查独立性检验,考查分层抽样方法,考查线性回归方程,考查判断两个相关变量之间的关系,是一个综合题目,这种题考查的知识点比较多,需要认真分析.14. 某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验根据收集到的数据如表:零件数加工时间分钟由最小二乘法求得回归方程,则a的值为______ .(正确答案)解:由题意,计算,,且回归直线方程的图象过样本中心点,所以.故答案为:.根据回归直线方程的图象过样本中心点,求出平均数代入方程即可求出a的值.本题考查了回归直线方程的图象过样本中心点的应用问题,是基础题目.15. 如图是一组数据的散点图,经最小二乘法计算,得y与x之间的线性回归方程为,则______.(正确答案)解:由散点图得:,,将代入,解得:,故答案为:.求出样本点的中心,代入回归方程求出系数的值即可.本题考查了回归方程,考查样本点的中心,是一道基础题.16. 对具有线性相关关系的变量x,y有一组观测数据2,,,其回归直线方程是,且,请估算时, ______ .(正确答案)解:,,,样本中心点的坐标为,代入回归直线方程得,,.时,.故答案为:.求出横标和纵标的平均数,写出样本中心点,把样本中心点代入线性回归方程,得到关于a的方程,解方程即可.本题考查线性回归方程,解题的关键是线性回归直线一定过样本中心点,这是求解线性回归方程的步骤之一.三、解答题(本大题共3小题,共40分)17. 某职称晋级评定机构对参加某次专业技术考试的100人的成绩进行了统计,绘制了频率分布直方图如图所示,规定80分及以上者晋级成功,否则晋级失败.Ⅰ求图中a的值;Ⅱ根据已知条件完成下面列联表,并判断能否有的把握认为“晋级成功”与性别有关?Ⅲ将频率视为概率,从本次考试的所有人员中,随机抽取4人进行约谈,记这4人中晋级失败的人数为X,求X的分布列与数学期望.参考公式:,其中(正确答案)解:Ⅰ由频率分布直方图各小长方形面积总和为1,可知,解得;Ⅱ由频率分布直方图知,晋级成功的频率为,所以晋级成功的人数为人,填表如下:假设“晋级成功”与性别无关,根据上表数据代入公式可得,所以有超过的把握认为“晋级成功”与性别有关;Ⅲ由频率分布直方图知晋级失败的频率为,将频率视为概率,则从本次考试的所有人员中,随机抽取1人进行约谈,这人晋级失败的概率为,所以X可视为服从二项分布,即,,故,,,,,所以X的分布列为数学期望为,或Ⅰ由频率和为1,列出方程求a的值;Ⅱ由频率分布直方图求出晋级成功的频率,计算晋级成功的人数,填写列联表,计算观测值,对照临界值得出结论;Ⅲ由频率分布直方图知晋级失败的频率,将频率视为概率,知随机变量X服从二项分布,计算对应的概率值,写出分布列,计算数学期望;本题考查了频率分布直方图与独立性检验和离散型随机变量的分布列、数学期望的应用问题,是中档题.18. 近年来,手机已经成为人们日常生活中不可缺少的产品,手机的功能也日趋完善,已延伸到了各个领域,如拍照,聊天,阅读,缴费,购物,理财,娱乐,办公等等,手机的价格差距也很大,为分析人们购买手机的消费情况,现对某小区随机抽取了200人进行手机价格的调查,统计如下:元及元元元Ⅰ完成关于人们使用手机的价格和年龄的列联表,再判断能否在犯错误的概率不超过的前提下,认为人们使用手机的价格和年龄有关?Ⅱ如果用分层抽样的方法从样本手机价格在5000元及以上的人群中选择5人调查他的收入状况,再从这5人中选3人,求3人的年龄都在45岁及以下的概率.附(正确答案)解:Ⅰ列联表,在犯错误的概率不超过的前提下,认为人们使用手机的价格和年龄有关;Ⅱ样本手机价格在5000元及以上的人共15人,用分层抽样的方法选择5人,45岁及以下的抽取4人,45岁以上的抽取1人,从这5人中选3人,有种情况,3人的年龄都在45岁及以下,有4种情况,人的年龄都在45岁及以下的概率为.Ⅰ由题中数据可得列联表,计算,从而与临界值比较,即可得到结论;Ⅱ样本手机价格在5000元及以上的人共15人,用分层抽样的方法选择5人,45岁及以下的抽取4人,45岁以上的抽取1人,从这5人中选3人,有种情况,3人的年龄都在45岁及以下,有4种情况,即可求出3人的年龄都在45岁及以下的概率.本题考查概率的计算,考查独立性检验知识,考查学生的计算能力,属于中档题.19. 在“新零售”模式的背景下,某大型零售公司为推广线下分店,计划在S市的A区开设分店为了确定在该区开设分店的个数,该公司对该市已开设分店的其他区的数据作了初步处理后得到下列表格记x表示在各区开设分店的个数,y表示这x个分店的年收入之和.个百万元Ⅰ该公司已经过初步判断,可用线性回归模型拟合y与x的关系,求y关于x的线性回归方程;Ⅱ假设该公司在A区获得的总年利润单位:百万元与x,y之间的关系为,请结合Ⅰ中的线性回归方程,估算该公司应在A区开设多少个分店时,才能使A区平均每个分店的年利润最大?参考公式:,,.(正确答案)解:Ⅰ,,,,关于x的线性回归方程.Ⅱ,A区平均每个分店的年利润,时,t取得最大值,故该公司应在A区开设4个分店时,才能使A区平均每个分店的年利润最大Ⅰ求出回归系数,可得y关于x的线性回归方程;Ⅱ求出A区平均每个分店的年利润,利用基本不等式,可得结论.本题考查回归方程,考查基本不等式的运用,正确求出回归方程是关键.。
高考数学(理)二轮复习练习:专题限时集训7 回归分析、独立性检验 Word版含答案
专题限时集训(七) 回归分析、独立性检验(对应学生用书第91页)(限时:40分钟)1.(2017·石家庄一模)下列说法错误的是( )【导学号:07804050】A .回归直线过样本点的中心(x ,y )B .两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于1C .对分类变量X 与Y ,随机变量K 2的观测值k 越大,则判断“X 与Y 有关系”的把握程度越小D .在回归直线方程y ^=0.2x +0.8中,当解释变量x 每增加1个单位时,预报变量y ^就增加0.2个单位C [根据相关定义知选项A ,B ,D 均正确;选项C 中,对分类变量X 与Y ,随机变量K 2的观测值k 越大,对判断“X 与Y 有关系”的把握程度越大,故C 错误.选C.]2.(2017·湖南名校联考)利用独立性检验来考虑两个分类变量X 和Y 是否有关系时,通过查阅下表来确定“X 和Y 有关系”的可信度.如果k >3.841,那么有把握认为“X 和Y 有关系”的百分比为C .99.5%D .95%D [由图表中数据可得,当k >3.841时,有0.05的几率说明这两个变量之间的关系是不可信的,即有1-0.05=0.95的几率,也就是有95%的把握认为变量之间有关系,故选D.] 3.(2017·湖北七市联考)广告投入对商品的销售额有较大影响.某电商对连续5个年度的广告费x 和销售额y 进行统计,得到统计数据如下表(单位:万元):由上表可得回归方程为y ^=10.2x +a ^,据此模型,预测广告费为10万元时销售额约为( )【导学号:07804051】A .101.2万元B .108.8万元C .111.2万元D .118.2万元C [根据统计数据表,可得x =15×(2+3+4+5+6)=4,y =15×(29+41+50+59+71)=50,而回归直线y ^=10.2x +a ^经过样本点的中心(4,50),∴50=10.2×4+a ^,解得a ^=9.2,∴回归方程为y ^=10.2x +9.2,∴当x =10时,y ^=10.2×10+9.2=111.2,故选C.] 4.(2017·佛山二模)现行普通高中学生在高一升高二时面临着选文理科的问题,学校抽取了部分男、女学生意愿的一份样本,制作出如图77所示的两个等高堆积条形图.图77根据这两幅图中的信息,下列哪个统计结论是不正确的( ) A .样本中的女生数量多于男生数量B .样本中有理科意愿的学生数量多于有文科意愿的学生数量C .样本中的男生偏爱理科D .样本中的女生偏爱文科D [由图2知,样本中的女生数量多于男生数量,样本中的男生、女生均偏爱理科;由图1知,样本中有理科意愿的学生数量多于有文科意愿的学生数量,故选D.]5.(2016·汕头模拟)对四组不同数据进行统计,分别获得以下散点图,如果对它们的相关系数进行比较,下列结论中正确的是( )图78(1)图78(2)图78(3)图78(4)A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3A [由给出的四组数据的散点图可以看出,图(1)和图(3)是正相关,相关系数大于0,图(2)和图(4)是负相关,相关系数小于0,图(1)和图(2)的点相对更加集中,所以相关性要强,所有r 1接近于1,r 2接近于-1,由此可得r 2<r 4<r 3<r 1.故选A.]6.(2017·南昌一模)设某中学的高中女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据样本数据(x i ,y i )(i =1,2,3,…,n ),用最小二乘法近似得到回归直线方程为y ^=0.85x -85.71,则下列结论中不正确的是( ) A .y 与x 具有正线性相关关系 B .回归直线过样本点的中心(x ,y )C .若该中学某高中女生身高增加1 cm ,则其体重约增加0.85 kgD .若该中学某高中女生身高为160 cm ,则可断定其体重必为50.29 kgD [因为回归直线方程y ^=0.85x -85.71中x 的系数为0.85>0,因此y 与x 具有正线性相关关系,所以选项A 正确;由最小二乘法及回归直线方程的求解可知回归直线过样本点的中心(x ,y ),所以选项B 正确;由于用最小二乘法得到的回归直线方程是估计值,而不是具体值,若该中学某高中女生身高增加1 cm ,则其体重约增加0.85 kg ,所以选项C 正确,选项D 不正确.]7.在用线性回归方程研究四组数据的拟合效果中,分别作出下列四个关于四组数据的残差图,则用线性回归模式拟合效果最佳的是( )ABCDC[当残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明拟合精度越好,拟合效果越好,对比4个残差图,易知选项C的图对应的带状区域的宽度越窄.故选C.]8.(2017·江西南城一中、高安中学第九校3月联考)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.由K 2=a +bc +d a +cb +d,得K 2=65×35×58×42≈9.616.参照下表,A .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C .有99%以上的把握认为“生育意愿与城市级别有关”D .有99%以上的把握认为“生育意愿与城市级别无关” C [K 2≈9.616>6.635,∴有99%以上的把握认为“生育意愿与城市级别有关”,故选C.] 二、填空题9.(2017·汉中二模)为了研究某种细菌在特定环境下随时间变化的繁殖规律,得到了下表中的实验数据,计算得回归直线方程为y ^=0.85x -0.25.由以上信息,可得表中c 的值为________.【导学号:07804052】6 [x =5=5,y =5=5,代入回归直线方程,得14+c5=0.85×5-0.25,解得c =6.] 10.(2017·安徽百校联盟二模)已知x 、y 的取值为:从散点图可知y 与x 呈线性相关关系,且回归直线方程为y ^=1.2x +a ^,则当x =20时,y 的取值为________.27.6 [由表格可知x =3,y =7.2,所以这组数据的样本点的中心是(3,7.2),根据样本点的中心在回归直线上,得7.2=a ^+1.2×3,得a ^=3.6,所以这组数据对应的回归直线方程是y ^=1.2x +3.6,将x =20代入,得y =1.2×20+3.6=27.6.]11.(2017·山西太原五中一模)某小卖部销售某品牌的饮料的零售价与销量间的关系统计如下:已知x ,y 的关系符合回归方程y =b x +a ,其中b =-20.若该品牌的饮料的进价为2元,为使利润最大,零售价应定为________元. 3.75 [x =3.5,y =40,∴a ^=40-(-20)×3.5=110, ∴回归直线方程为:y ^=-20x +110,利润L =(x -2)(-20x +110)=-20x 2+150x -220, ∴x =15040=3.75元时,利润最大,故答案为3.75.]12.(2017·哈尔滨三中二模)以模型y =c e kx(e 为自然对数的底)去拟合一组数据时,为了求出回归直线方程,设z =ln y ,其变换后得到线性回归方程为z =0.4x +2,则c =________. e 2[∵y =c e kx,∴两边取对数,可得ln y =ln(c e kx )=ln c +ln e kx=ln c +kx , 令z =ln y ,可得z =ln c +kx , ∵z =0.4x +2, ∴ln c =2, ∴c =e 2.] 三、解答题13.(2017·石家庄一模)为了调查某地区成年人血液的一项指标,现随机抽取了成年男性、女性各20人组成一个样本,对他们的这项血液指标进行了检测,得到了如图79所示的茎叶图.根据医学知识,我们认为此项指标大于40为偏高,反之即为正常.图79(1)依据上述样本数据研究此项血液指标与性别的关系,列出2×2列联表,并判断能否在犯错误的概率不超过0.01的前提下认为此项血液指标与性别有关系?(2)以样本估计总体,视样本频率为概率,现从本地区随机抽取成年男性、女性各2人,求此项血液指标为正常的人数X 的分布列及数学期望. 附:K 2=n ad -bc 2a +b c +d a +cb +d,其中n =a +b +c +d .K 2=a +bc +d a +cb +d=20×20×28×12≈1.905<6.635,所以不能在犯错误的概率不超过0.01的前提下认为此项血液指标与性别有关系. (2)由样本数据可知,男性正常的概率为45,女性正常的概率为35.此项血液指标为正常的人数X 的可能取值为0,1,2,3,4,P (X =0)=⎝ ⎛⎭⎪⎫1-452⎝ ⎛⎭⎪⎫1-352=4625,P (X =1)=C 1245⎝⎛⎭⎪⎫1-45⎝⎛⎭⎪⎫1-352+⎝ ⎛⎭⎪⎫1-452C 1235·⎝ ⎛⎭⎪⎫1-35=44625, P (X =2)=⎝ ⎛⎭⎪⎫452⎝ ⎛⎭⎪⎫1-352+C 1245⎝ ⎛⎭⎪⎫1-45·C 1235·⎝ ⎛⎭⎪⎫1-35+⎝ ⎛⎭⎪⎫1-452⎝ ⎛⎭⎪⎫352=169625, P (X =3)=C 1245⎝ ⎛⎭⎪⎫1-45⎝ ⎛⎭⎪⎫352+⎝ ⎛⎭⎪⎫452C 1235·⎝⎛⎭⎪⎫1-35=264625,P (X =4)=⎝ ⎛⎭⎪⎫452⎝ ⎛⎭⎪⎫352=144625,所以X 的分布列为所以E (X )=0×625+1×625+2×625+3×625+4×625=2.8.14.(2017·湖南三湘名校联盟三模)为了研究一种昆虫的产卵数y 和温度x 是否有关,现收集了7组观测数据列于下表中,并作出了散点图,发现样本点并没有分布在某个带状区域内,两个变量并不呈线性相关关系,现分别用模型①:y =C 1x 2+C 2与模型②:y =e C 3x +C 4作为产卵数y 和温度x 的回归方程来建立两个变量之间的关系.∑n i =1x i -xy i -y∑ni =1x i -x 2∑n i =1t i -ty i -y∑ni =1t i -t 2∑n i =1z i -zx i -x∑ni =1x i -x 2∑ni =1z i -zt i -t∑ni =1t i -t2其中t i =x 2i ,t =∑i =1t i ,z i =ln y i ,z =∑i =1z i ,附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v ^=β^u +α^的斜率和截距的最小二乘估计分别为:β^=∑ni =1u i -uv i -v∑ni =1u i -u2,α^=v -β^u .图710(1)在答题卡中分别画出y 关于t 的散点图、z 关于x 的散点图,根据散点图判断哪一个模型更适宜作为回归方程类型?(给出判断即可,不必说明理由).图711(2)根据表中数据,分别建立两个模型下y 关于x 的回归方程;并在两个模型下分别估计温度为30℃时的产卵数.(C 1,C 2,C 3,C 4与估计值均精确到小数点后两位)(参考数据:e 4.65≈104.58,e4.85≈127.74,e5.05≈156.02)(3)若模型①、②的相关指数计算得分分别为R 21=0.82,R 22=0.96,请根据相关指数判断哪个模型的拟合效果更好.【导学号:07804053】[解] (1)画出y 关于t 的散点图,如图1;z 关于x 的散点图,如图2.图1 图2根据散点图可判断模型②更适宜作为回归方程类型. (2)对于模型①:设t =x 2,则y =C 1x 2+C 2=C 1t +C 2,其中C ^1=∑7i =1t i -ty i -y∑7i =1t i -t2=0.43,C ^2=y -C ^1t =80-0.43×692=-217.56,所以y =0.43x 2-217.56,当x =30时,估计温度为y 1=0.43×302-217.56=169.44. 对于模型②:y =e C 3x +C 4⇒z =ln y =C 3x +C 4,其中C ^3=∑7i =1z i -zx i -x∑7i =1x i -x2=0.32,C ^4=z -C ^3x =3.57-0.32×26=-4.75.所以y =e0.32x -4.75,当x =30时,估计温度为y 2=e0.32×30-4.75=e4.85≈127.74.(3)因为R 21<R 22,所以模型②的拟合效果更好.。
高考真题——回归分析和独立性检验
高考真题——回归分析和独立性检验副标题一、选择题(本大题共9小题,共45.0分)1.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:已知在全部105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的是()参考公式:K2=附表:列联表中c的值为30,b的值为35B. 列联表中c的值为15,b的值为50C. 根据列联表中的数据,若按的可靠性要求,能认为“成绩与班级有关系”D. 根据列联表中的数据,若按的可靠性要求,不能认为“成绩与班级有关系”2.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是()表1表2表3表4成绩视力 C. 智商 D. 阅读量3.下列两个变量中具有相关关系的是()A. 正方形的面积与边长B. 匀速行驶的车辆的行驶距离与时间C. 人的身高与体重D. 人的身高与视力4.下列说法:①将一组数据中的每一个数据都加上或减去同一个常数后,方差不变;②设有一个线性回归方程=3-5x,变量x增加1个单位时,y平均增加5个单位;③线性回归方程=x+必过(,);④设具有相关关系的两个变量x,y的相关系数为r,则|r|越接近于0,x和y之间的线性相关程度越高;⑤在一个2×2列联表中,由计算得K2的值,则K2的值越大,判断两个变量间有关联的把握就越大.其中错误的个数是()A. 0B. 1C. 2D. 35.某次考试,班主任从全班同学中随机抽取一个容量为8的样本,他们的数学、物理分数对应如下表:绘出散点图如下:根据以上信息,判断下列结论:①根据此散点图,可以判断数学成绩与物理成绩具有线性相关关系;②根据此散点图,可以判断数学成绩与物理成绩具有一次函数关系;③甲同学数学考了80分,那么,他的物理成绩一定比数学只考了60分的乙同学的物理成绩要高.其中正确的个数为A. 0B. 3C. 2D. 16.有人认为在机动车驾驶技术上,男性优于女性.这是真的么?某社会调查机构与交警合作随机统计了经常开车的100名驾驶员最近三个月内是否有交通事故或交通违法事件发生,得到下面的列联表:附:K2=据此表,可得()A. 认为机动车驾驶技术与性别有关的可靠性不足B. 认为机动车驾驶技术与性别有关的可靠性超过C. 认为机动车驾驶技术与性别有关的可靠性不足D. 认为机动车驾驶技术与性别有关的可靠性超过7.如图是相关变量x,y的散点图,现对这两个变量进行线性相关分析,方案一:根据图中所有数据,得到线性回归方程y=b1x+a1,相关系数为r1;方案二:剔除点(10,21),根据剩下数据得到线性回归直线方程y=b2x+a2,相关系数为r2.则()A. B. C. D.8.由K2=得K2=≈8.333>7.879A. 有以上的把握认为“爱好该项运动与性别有关”B. 有以上的把握认为“爱好该项运动与性别无关”C. 在犯错误的概率不超过的前提下,认为“爱好该项运动与性别有关”D. 在犯错误的概率不超过的前提下,认为“爱好该项运动与性别无关”9.有五组变量:①汽车的重量和汽车每消耗1升汽油所行驶的平均路程;②平均日学习时间和平均学习成绩;③某人每日吸烟量和身体健康情况;④圆的半径与面积;⑤汽车的重量和每千米耗油量.其中两个变量成正相关的是()A. ①③B. ②④C. ②⑤D. ④⑤二、填空题(本大题共1小题,共5.0分)10.高三年级267位学生参加期末考试,某班37位学生的语文成绩,数学成绩与总成绩在全年级的排名情况如图所示,甲、乙、丙为该班三位学生。
2019年高考数学(理)二轮复习练习:专题限时集训7 回归分析、独立性检验 Word版含答案
专题限时集训(七) 回归分析、独立性检验(对应学生用书第91页)(限时:40分钟)1.(2017·石家庄一模)下列说法错误的是( )【导学号:07804050】A .回归直线过样本点的中心(x ,y )B .两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于1C .对分类变量X 与Y ,随机变量K 2的观测值k 越大,则判断“X 与Y 有关系”的把握程度越小D .在回归直线方程y ^=0.2x +0.8中,当解释变量x 每增加1个单位时,预报变量y ^就增加0.2个单位C [根据相关定义知选项A ,B ,D 均正确;选项C 中,对分类变量X 与Y ,随机变量K 2的观测值k 越大,对判断“X 与Y 有关系”的把握程度越大,故C 错误.选C.]2.(2017·湖南名校联考)利用独立性检验来考虑两个分类变量X 和Y 是否有关系时,通过查阅下表来确定“X 和Y 有关系”的可信度.如果k >3.841,那么有把握认为“X 和Y 有关系”的百分比为C .99.5%D .95%D [由图表中数据可得,当k >3.841时,有0.05的几率说明这两个变量之间的关系是不可信的,即有1-0.05=0.95的几率,也就是有95%的把握认为变量之间有关系,故选D.] 3.(2017·湖北七市联考)广告投入对商品的销售额有较大影响.某电商对连续5个年度的广告费x 和销售额y 进行统计,得到统计数据如下表(单位:万元):由上表可得回归方程为y ^=10.2x +a ^,据此模型,预测广告费为10万元时销售额约为( )【导学号:07804051】A .101.2万元B .108.8万元C .111.2万元D .118.2万元C [根据统计数据表,可得x =15×(2+3+4+5+6)=4,y =15×(29+41+50+59+71)=50,而回归直线y ^=10.2x +a ^经过样本点的中心(4,50),∴50=10.2×4+a ^,解得a ^=9.2,∴回归方程为y ^=10.2x +9.2,∴当x =10时,y ^=10.2×10+9.2=111.2,故选C.] 4.(2017·佛山二模)现行普通高中学生在高一升高二时面临着选文理科的问题,学校抽取了部分男、女学生意愿的一份样本,制作出如图77所示的两个等高堆积条形图.图77根据这两幅图中的信息,下列哪个统计结论是不正确的( ) A .样本中的女生数量多于男生数量B .样本中有理科意愿的学生数量多于有文科意愿的学生数量C .样本中的男生偏爱理科D .样本中的女生偏爱文科D [由图2知,样本中的女生数量多于男生数量,样本中的男生、女生均偏爱理科;由图1知,样本中有理科意愿的学生数量多于有文科意愿的学生数量,故选D.]5.(2016·汕头模拟)对四组不同数据进行统计,分别获得以下散点图,如果对它们的相关系数进行比较,下列结论中正确的是( )图78(1)图78(2)图78(3)图78(4)A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3A [由给出的四组数据的散点图可以看出,图(1)和图(3)是正相关,相关系数大于0,图(2)和图(4)是负相关,相关系数小于0,图(1)和图(2)的点相对更加集中,所以相关性要强,所有r 1接近于1,r 2接近于-1,由此可得r 2<r 4<r 3<r 1.故选A.]6.(2017·南昌一模)设某中学的高中女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据样本数据(x i ,y i )(i =1,2,3,…,n ),用最小二乘法近似得到回归直线方程为y ^=0.85x -85.71,则下列结论中不正确的是( ) A .y 与x 具有正线性相关关系 B .回归直线过样本点的中心(x ,y )C .若该中学某高中女生身高增加1 cm ,则其体重约增加0.85 kgD .若该中学某高中女生身高为160 cm ,则可断定其体重必为50.29 kgD [因为回归直线方程y ^=0.85x -85.71中x 的系数为0.85>0,因此y 与x 具有正线性相关关系,所以选项A 正确;由最小二乘法及回归直线方程的求解可知回归直线过样本点的中心(x ,y ),所以选项B 正确;由于用最小二乘法得到的回归直线方程是估计值,而不是具体值,若该中学某高中女生身高增加1 cm ,则其体重约增加0.85 kg ,所以选项C 正确,选项D 不正确.]7.在用线性回归方程研究四组数据的拟合效果中,分别作出下列四个关于四组数据的残差图,则用线性回归模式拟合效果最佳的是( )ABCDC[当残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明拟合精度越好,拟合效果越好,对比4个残差图,易知选项C的图对应的带状区域的宽度越窄.故选C.]8.(2017·江西南城一中、高安中学第九校3月联考)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.非一线 一线 合计 愿生 45 20 65 不愿生 13 22 35 合计5842100由K 2=n ad -bc 2a +bc +d a +cb +d ,得K 2=100×45×22-20×13265×35×58×42≈9.616.参照下表,P (K 2≥k )0.050 0.010 0.001 k3.8416.63510.828A .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C .有99%以上的把握认为“生育意愿与城市级别有关”D .有99%以上的把握认为“生育意愿与城市级别无关” C [K 2≈9.616>6.635,∴有99%以上的把握认为“生育意愿与城市级别有关”,故选C.] 二、填空题9.(2017·汉中二模)为了研究某种细菌在特定环境下随时间变化的繁殖规律,得到了下表中的实验数据,计算得回归直线方程为y ^=0.85x -0.25.由以上信息,可得表中c 的值为________.【导学号:07804052】天数x 3 4 5 6 7繁殖数量y (千个)2.5344.5c6 [x =5=5,y =5=5,代入回归直线方程,得14+c5=0.85×5-0.25,解得c =6.] 10.(2017·安徽百校联盟二模)已知x 、y 的取值为:x 1 2 3 4 5 y567810从散点图可知y 与x 呈线性相关关系,且回归直线方程为y ^=1.2x +a ^,则当x =20时,y 的取值为________.27.6 [由表格可知x =3,y =7.2,所以这组数据的样本点的中心是(3,7.2),根据样本点的中心在回归直线上,得7.2=a ^+1.2×3,得a ^=3.6,所以这组数据对应的回归直线方程是y ^=1.2x +3.6,将x =20代入,得y =1.2×20+3.6=27.6.]11.(2017·山西太原五中一模)某小卖部销售某品牌的饮料的零售价与销量间的关系统计如下:已知x ,y 的关系符合回归方程y =b x +a ,其中b =-20.若该品牌的饮料的进价为2元,为使利润最大,零售价应定为________元. 3.75 [x =3.5,y =40,∴a ^=40-(-20)×3.5=110, ∴回归直线方程为:y ^=-20x +110,利润L =(x -2)(-20x +110)=-20x 2+150x -220, ∴x =15040=3.75元时,利润最大,故答案为3.75.]12.(2017·哈尔滨三中二模)以模型y =c e kx(e 为自然对数的底)去拟合一组数据时,为了求出回归直线方程,设z =ln y ,其变换后得到线性回归方程为z =0.4x +2,则c =________. e 2[∵y =c e kx,∴两边取对数,可得ln y =ln(c e kx )=ln c +ln e kx=ln c +kx , 令z =ln y ,可得z =ln c +kx , ∵z =0.4x +2, ∴ln c =2, ∴c =e 2.] 三、解答题13.(2017·石家庄一模)为了调查某地区成年人血液的一项指标,现随机抽取了成年男性、女性各20人组成一个样本,对他们的这项血液指标进行了检测,得到了如图79所示的茎叶图.根据医学知识,我们认为此项指标大于40为偏高,反之即为正常.图79(1)依据上述样本数据研究此项血液指标与性别的关系,列出2×2列联表,并判断能否在犯错误的概率不超过0.01的前提下认为此项血液指标与性别有关系?(2)以样本估计总体,视样本频率为概率,现从本地区随机抽取成年男性、女性各2人,求此项血液指标为正常的人数X 的分布列及数学期望. 附:K 2=n ad -bc 2a +b c +d a +cb +d,其中n =a +b +c +d .P (K 2≥k 0)0.025 0.010 0.005 k 05.0246.6357.879[解] (1)由茎叶图可得2×2列联表:正常 偏高 合计 男性 16 4 20 女性 12 8 20 合计281240K 2=n ad -bc 2a +bc +d a +cb +d =40×16×8-4×12220×20×28×12≈1.905<6.635,所以不能在犯错误的概率不超过0.01的前提下认为此项血液指标与性别有关系. (2)由样本数据可知,男性正常的概率为45,女性正常的概率为35.此项血液指标为正常的人数X 的可能取值为0,1,2,3,4,P (X =0)=⎝ ⎛⎭⎪⎫1-452⎝ ⎛⎭⎪⎫1-352=4625,P (X =1)=C 1245⎝⎛⎭⎪⎫1-45⎝⎛⎭⎪⎫1-352+⎝ ⎛⎭⎪⎫1-452C 1235·⎝ ⎛⎭⎪⎫1-35=44625, P (X =2)=⎝ ⎛⎭⎪⎫452⎝ ⎛⎭⎪⎫1-352+C 1245⎝ ⎛⎭⎪⎫1-45·C 1235·⎝ ⎛⎭⎪⎫1-35+⎝ ⎛⎭⎪⎫1-452⎝ ⎛⎭⎪⎫352=169625, P (X =3)=C 1245⎝ ⎛⎭⎪⎫1-45⎝ ⎛⎭⎪⎫352+⎝ ⎛⎭⎪⎫452C 1235·⎝⎛⎭⎪⎫1-35=264625,P (X =4)=⎝ ⎛⎭⎪⎫452⎝ ⎛⎭⎪⎫352=144625,所以X 的分布列为所以E (X )=0×625+1×625+2×625+3×625+4×625=2.8.14.(2017·湖南三湘名校联盟三模)为了研究一种昆虫的产卵数y 和温度x 是否有关,现收集了7组观测数据列于下表中,并作出了散点图,发现样本点并没有分布在某个带状区域内,两个变量并不呈线性相关关系,现分别用模型①:y =C 1x 2+C 2与模型②:y =e C 3x +C 4作为产卵数y 和温度x 的回归方程来建立两个变量之间的关系.∑n i =1x i -xy i -y∑ni =1x i -x 2∑n i =1t i -ty i -y∑ni =1t i -t 2∑n i =1z i -zx i -x∑ni =1x i -x 2∑ni =1z i -zt i -t∑ni =1t i -t2其中t i =x 2i ,t =∑i =1t i ,z i =ln y i ,z =∑i =1z i ,附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v ^=β^u +α^的斜率和截距的最小二乘估计分别为:β^=∑ni =1u i -uv i -v∑ni =1u i -u2,α^=v -β^u .图710(1)在答题卡中分别画出y 关于t 的散点图、z 关于x 的散点图,根据散点图判断哪一个模型更适宜作为回归方程类型?(给出判断即可,不必说明理由).图711(2)根据表中数据,分别建立两个模型下y 关于x 的回归方程;并在两个模型下分别估计温度为30℃时的产卵数.(C 1,C 2,C 3,C 4与估计值均精确到小数点后两位)(参考数据:e 4.65≈104.58,e4.85≈127.74,e5.05≈156.02)(3)若模型①、②的相关指数计算得分分别为R 21=0.82,R 22=0.96,请根据相关指数判断哪个模型的拟合效果更好.【导学号:07804053】[解] (1)画出y 关于t 的散点图,如图1;z 关于x 的散点图,如图2.图1 图2根据散点图可判断模型②更适宜作为回归方程类型. (2)对于模型①:设t =x 2,则y =C 1x 2+C 2=C 1t +C 2,其中C ^1=∑7i =1t i -ty i -y∑7i =1t i -t2=0.43,C ^2=y -C ^1t =80-0.43×692=-217.56,所以y =0.43x 2-217.56,当x =30时,估计温度为y 1=0.43×302-217.56=169.44. 对于模型②:y =e C 3x +C 4⇒z =ln y =C 3x +C 4,其中C ^3=∑7i =1z i -zx i -x∑7i =1x i -x2=0.32,C ^4=z -C ^3x =3.57-0.32×26=-4.75.所以y =e0.32x -4.75,当x =30时,估计温度为y 2=e0.32×30-4.75=e4.85≈127.74.(3)因为R 21<R 22,所以模型②的拟合效果更好.。
2020高考数学总复习 第十一单元第三节回归分析与独立性检验
第十一单元 第三节回归分析与独立性检验一、选择题1.下列选项中,两个变量具有相关关系的是( ) A .正方形的体积与边长B .匀速行驶车辆的行驶距离与时间C .人的身高与体重D .人的身高与视力【解析】 选项A 、B 中的两变量为函数关系,选项D 中的两变量既不具有函数关系,也不具有相关关系.故选C.【答案】 C2.下图中的两个变量,具有相关关系的是( )【解析】 由散点图判断,选项B 中的两个变量具有相关关系. 【答案】 B3.已知变量x ,y 呈线性相关关系,回归方程为y ^=0.5+2x ,则变量x ,y 是( ) A .线性正相关关系B .由回归方程无法判断其正负相关C .线性负相关关系D .不存在线性相关关系【解析】 ∵b =2>0,∴变量x ,y 是线性正相关关系. 【答案】 A4.(精选考题·天津质检)线性回归方程表示的直线y ^=a +bx 必定过( ) A .(0,0)点 B .(x ,0)点 C .(0,y )点 D .(x ,y )点【解析】 由线性回归方程的性质可知,回归直线过样本中心点(x ,y ).【答案】 D5.(精选考题·湖南高考)某商品销售量y (件)与销售价格x (元/件)负相关,则其回归方程可能是( )A.y ^=-10x +200B.y ^=10x +200 C.y ^=-10x -200 D.y ^=10x -200【解析】 选项B 、D 为正相关,选项C 不符合实际意义. 【答案】 A6.两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关指数R 2如下,其中拟合效果最好的模型是( )A .模型1的相关指数R 2为0.98B .模型2的相关指数R 2为0.80C .模型3的相关指数R 2为0.50D .模型4的相关指数R 2为0.25【解析】 相关指数R 2越大,拟合效果越好. 【答案】 A7.为了探究色盲是否与性别有关,在调查的500名男性中有39名色盲患者,500名女性中有6名色盲患者,那么你认为色盲与性别有关的把握为( )A .0B .95%C .99%D .都不正确【解析】 2×2列联表如下:色盲患者 不是色盲 总计 男 39 461 500 女 6 494 500 总计459551 000K 2=1 00039×494-461×6245×955×500×500≈25.34>6.635.故选C.【答案】 C 二、填空题 8.用身高y (cm)预报体重x (kg)满足y =0.849x -85.712,则体重41.638 kg 的人________在150 cm 高的人群中.(填“一定”或“不一定”)【解析】 由回归方程得到预报值,不是准确值,41.638 kg 的人身高不一定在150 cm 人群中.【答案】 不一定9.某炼钢厂废品率x (%)与成本y (元/t)的线性回归方程为y ^=105.492+42.569x .当成本控制在176.5元/t 时,可以预计生产1 000 t 钢中,约有________t 钢是废品.【解析】 ∵176.5=105.492+42.569x ,∴x ≈1.668, 即成本控制在176.5元/t 时,废品率约为1.668%.∴生产1 000 t 钢中,约有1 000×1.668%=16.68(t)钢是废品. 【答案】 16.6810.某高校“统计初步”课程的教师随机调查了选该课程的一些学生的情况,具体数据如下表:专业性别 非统计专业 统计专业男 13 10 女 7 20为了判断主据,得到K 2=50×13×20-10×7223×27×20×30≈4.844.因为K 2≥3.841,所以判定主修统计专业与性别有关系,那么这种判断出错的可能性为________.【解析】 ∵P (K 2≥3.841)=0.05,4.844>3.845, ∴判断出错的可能性为5%. 【答案】 5% 三、解答题11.在研究某种新措施对猪白痢的防治效果问题时,得到了以下数据:存活数 死亡数 总计新措施 132 18 150 对照 114 36 150 总计 246 54 300【解析】 由列联表可知,a =132,b =18,c =114,d =36,a +b =150,c +d =150,a+c =246,b +d =54,n =300,代入K 2=n ad -bc 2a +ba +c c +db +d,得K 2=300×132×36-18×1142150×150×54×246≈7.317,由于K 2≈7.317>6.635,因此我们有99%的把握认为新措施对预防猪白痢是有效的. 12.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据:x 3 4 5 6 y 2.5 3 44.5 (1)请根据上表提供的数据,求出y 关于x 的回归方程y =bx +a ; (2)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)【解析】 (1)x =3+4+5+64=4.5,y =2.5+3+4+4.54=3.5,∑i =14x i y i =3×2.5+4×3+5×4+6×4.5=66.5,∑i =14x i 2=32+42+52+62=86,∴b =∑i =14x i y i -4x·y∑i =14x i 2-4x2=66.5-4×4.5×3.586-4×4.52=0.7, a =y -b x =3.5-0.7×4.5=0.35,∴所求的线性回归方程为y ^=0.7x +0.35. (2)现在生产100吨甲产品用煤 y =0.7×100+0.35=70.35, ∴降低90-70.35=19.65吨标准煤.。
高考数学总复习 第十五章 第3讲 回归分析与独立性检验配套课件 文
=______________为样本容量.
K2
(3)独立性检验:
法称为(chēnɡ wéi)独立性检验.
利用随机变量____来判断“两个分类变量________”的方
有关系(guān xì)
第十一页,共41页。
1. 有关线性回归(huíguī)的说法,不正确的D是()
A.相关关系的两个(liǎnɡ ɡè)变量是非确定关系
C.③④ D.①④
第十三页,共41页。
3.通过随机询问 110 名性别不同的大学生是否爱好(ài hào)某项运
动,得到如下的列联表:
男
女
总计
爱好
40
不爱好
20
总计
60
20
60
30
50
50
110
由 K2=a+bcn+add-ab+cc2b+d算得, K2=110×60×405×0×306-0×205×0 202≈7.8.
第十四页,共41页。
附表:
P(K2≥k)
0.050 0.010 0.001
k
3.841 6.635 10.828
参照附表,得到的正确(zhèngquè)结A 论)是(
A.有 99%以上的把握认为“爱好该项运动与性别有关”
B.有 99%以上的把握认为“爱好该项运动与性别无关”
C.在犯错误的概率不超过(chāoguò) 0.1%的前提下,认为“爱好该
分①别y得与到以x下负四个相结关论:且^y=2.347x-6.423; ②y 与 x 负相关且^y=-3.476x+5.648;
③y 与 x 正相关且^y=5.437x+8.493;
④y 与 x 正相关且^y=-4.326x-4.578.
【高考数学总复习】:回归性分析与独立性检验(知识点讲解+真题演练+详细解答)
量,例如某同学的数学成绩与化学成绩。
2.线性回归分析 (1) 散点图:将样本中的各对数据在直角坐标系中描点而得到的图形叫做散点图,它直观地 描述了两个变量之间是否有相关关系,是判断两个变量相关性的重要依据。 (2) 回归直线:散点图中点的整体分布在一条直线左右,则称这两个变量之间具有线性相关
(a b)(c d)(a c)(b d )
通过对统计量 K2 的研究,一般情况下认为:
①当 K 2 ≤3.841 时,认为变量 X 与 Y 是无关的。
②当 K 2 >3.841 时,有 95%的把握说变量 X 与 Y 有关;
④ 当 K 2 >6.635 时,有 99%的把握说变量 X 与 Y 有关;
定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。
2.分类变量的理解: 分类变量是说明事物类别的一个名称,其取值是分类数据。如“性别”就是一个分类变 量,其变量值为“男”或“女”;“行业”也是一个分类变量,其变量值可以为“零售 业”,说明 X 与 Y 无关的把握越小
6. 右表是对与喜欢足球与否的统计列联表依据表中的数据,得到( )
A. K 2 9.564 B. K 2 3.564 C. K 2 2.706 D. K 2 3.841
7. 对两个分类变量 A、B 的下列说法中正确的个数为( ). ①A 与 B 无关,即 A 与 B 互不影响;②A 与 B 关系越密切,则 K2 的值就越大;③K2
x yw
46.6 563 6.8
8
(xi x )2
i 1
回归分析与独立性检验小题分类训练(含答案)
回归分析与独立性检验小题分类训练1.在一组样本数据为11(,)x y ,22(,)x y ,L ,(,)n n x y (2n ≥,1x ,2x ,3x ,L ,n x 不全相等)的散点图中,若所有样本点()(,1,2,,)i i x y i n =L 都在直线123y x =-+上,则这组样本数据的相关系数为( ) A .13- B .13 C .1D .-1 2.下图是相关变量,x y 的散点图,现对这两个变量进行线性相关分析,方案一:根据图中所有数据,得到线性回归方程:11ˆy b x a =+,相关系数为1r ;方案二:剔除点(10,32),根据剩下数据,得到线性回归方程:22ˆyb x a =+,相关系数为2r ;则( )A .1201r r <<<B .2101r r <<<C .1210r r -<<<D .2110r r -<<<3.变量,x y 之间的一组相关数据如表所示:x 45 6 7 y8.2 7.8 6.6 5.4 若,x y 之间的线性回归方程为ˆˆ12.28ybx =+,则ˆb 的值为( ) A .0.92- B .0.94- C .0.96- D .0.98-4.某产品的广告费支出x 与销售额y (单位:万元)之间的关系如下表,由此得到y 与x 的线性回归方程为∧∧+=a x y 6,由此可得:当广告支出5万元时,随机误差的效应(残差)为( )x 24 5 6 8 y 3040 60 50 70 A .-10B .0C .10D .20 5.已知下列命题:①回归直线ˆˆˆybx a =+恒过样本点的中心(),x y ,且至少过一个样本点; ②两个变量相关性越强,则相关系数r 就越接近于1;③将一组数据的每个数据都加一个相同的常数后,方差不变;④在回归直线方程20.5ˆyx =- 中,当解释变量x 增加一个单位时,预报变量ˆy 平均减少0.5; ⑤在线性回归模型中,相关指数2R 表示解释变量x 对于预报变量y 的贡献率,2R 越接近于1,表示回归效果越好;⑥对分类变量X与Y,它们的随机变量2K的观测值k来说,k越小,“X与Y有关系”的把握程度越大.⑦两个模型中残差平方和越小的模型拟合的效果越好.则正确命题的个数是()A.3B.4C.5D.66.经统计用于数学学习的时间(单位:小时)与成绩(单位:分)近似于线性相关关系,对某小组学生每周用于数学的学习时间x与数学成绩y进行数据收集如表:由表中样本数据求得回归方程为ŷ=b̂x+â,则()A.â+18b̂<100B.â+18b̂>100C.â+18b̂=100D.â+18b̂与100的大小无法确定k≈,7.为了解学生对街舞的喜欢是否与性别有关,在全校学生中进行抽样调查根据数据,求得2K的观测值0 4.804则至少有()的把握认为对街舞的喜欢与性别有关.参考数据:A.90% B.95% C.97.5% D.99.5%8.在一次独立性检验中,得出列联表如图:且最后发现,两个分类变量A和B没有任何关系,则a的可能值是()A.200 B.720 C.100 D.1809.利用独立性检验的方法调查大学生的性别与爱好某项运动是否有关,通过随机询问110名不同的大学生是否K≈爱好某项运动,利用22⨯列联表,由计算可得28.806参照附表,得到的正确结论是()A.有99.5%以上的把握认为“爱好该项运动与性别无关”B.有99.5%以上的把握认为“爱好该项运动与性别有关”C.在犯错误的概率不超过0.05%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过0.05%的前提下,认为“爱好该项运动与性别无关”参考答案1.D 根据回归直线方程是y 13=-x +2, 可得这两个变量是负相关,故这组样本数据的样本相关系数为负值,且所有样本点(x i ,y i )(i =1,2,…,n )都在直线上,则有|r |=1,∴相关系数r =﹣1.2.A 由散点图分布图可知,变量x 和y 成正相关,所以1201,01r r <<<< ,在剔除点(10,32)之后,且可看出回归直线22ˆyb x a =+的线性相关程度更强,2r 更接近1. 所以1201r r <<< .【点睛】本题主要考查散点图的正负相关以及变量的相关性,相关系数r 的意义:①当散点分布呈正相关,0r >;负相关,0r <;②0||1,||r r <<越接近1,说明两个变量越具有线性相关关系,即线性关系越强.3.C 解析:因为45678.27.8 6.6 5.45.5,744x y ++++++====,所以5.5712ˆ 2.8b =-,即ˆ0.96b =-,应选答案C .4.C 由题意,根据表格中的数据, 可得2456830406050705,5055x y ++++++++====, 所以ˆ6506520ay x =-⨯=-⨯=,所以ˆ620y x =+,取5x =,得ˆ652050y =⨯+=, 所以随机误差的效应(残差)为605010-=,故选C.5.B 对于①,回归直线y b x a ∧∧∧=+恒过样本点的中心(x y ,),可以不过任一个样本点,故①错误; 对于②,两个变量相关性越强,则相关系数r 的绝对值就越接近于1,故②错误;对于③,将一组数据的每个数据都加一个相同的常数后,由方差的性质可得方差不变,故③正确;对于④,在回归直线方程y ∧=2﹣0.5x 中,当解释变量x 每增加一个单位时,预报变量y ∧平均减少0.5个单位,故④正确;对于⑤,在线性回归模型中,相关指数R 2表示解释变量x 对于预报变量y 的贡献率, R 2越接近于1,表示回归效果越好,故⑤正确;对于⑥,对分类变量X 与Y ,它们的随机变量K 2的观测值k 来说,k 越大,“X 与Y 有关系”的把握程度越大,故⑥错误;对于⑦,可用残差平方和判断模型的拟合效果,残差平方和越小,模型的拟合效果越好,故⑦正确.6.B x̅=15(15+16+18+19+22)=18,y ̅=15(102+98+115+115+120)=110,所以样本数据的中心点为(18,110),所以110=18b ̂+a ̂,即点a ̂,b ̂满足a ̂+18b̂=110>100,故选B. 7.B 解:根据求得2K 的观测值0 4.804k ≈,且4.804 3.841>,所以至少有95%的把握认为对街舞的喜欢与性别有关 8.B 解:因为两个分类变量A 和B 没有任何关系,所以()()()()221180200800180 2.7023808001000180a a K a a +-⋅=<⋅+⋅⋅+ , 代入验证可知720a = .9.B 解:计算K 2≈8.806>7.879,对照表中数据得出有0.005的几率说明这两个变量之间的关系是不可信的, 即有1−0.005=99.5%的把握说明两个变量之间有关系,本题选择B 选项.。
高考数学真题分类集训课件考点32 回归分析与独立性检验
0.050 3.841
0.010 0.001 6.635 10.828
(3)K 2
n(ad bc)2
40(1515 5 5)2
(a b)(c d )(a c)(b d ) 20 20 20 20
10 6.635, 所以有99%的把握认为两种生产方式的效率有差异
i 1
i 1
某学生脚长为24,据此估计其身高为( C )
A. 160
B. 163
C. 166
D. 170
x 22.5, y 160, a 160 4 22.5 70, yˆ 4 24 70 166
2.为了解某社区居民的家庭年收入与年支出的关系,随机 调查了该社区5户家庭,得到如下统计数据表:
(ii)从计算结果看,相对于2016年的环境基础设施投资 额220亿元,由模型①得到的预测值226.1亿元的增幅明显 偏低,而利用模型②得到的预测值的增幅比较合理,说明 利用模型②得到的预测值更可靠.
以上给出了2种理由,考生答出其中一种或其他合理理由 均可得分.
4.某工厂为提高生产效率,开展技术创新活动,提出了完 成某项生产任务的两种生产方式,为比较两咱生产方式的 效率,选取40名工人,将他们随机分成两组,每组20人, 第一组工人用第一种生产方式,第二组工人用第二种生产 方式.根据工人完成生产任务的工作时间(单位:min) 绘制了如下茎叶图:
8
由于d
(wi w)( yi
i 1
8
(wi w)2
y)
108.8 16
68.
i 1
c y d w 563 68 6.8 100.6
y 100.6 68w,即y 100.6 68 x
高中数学独立性检验精选题目(附解析)
高中数学独立性检验精选题目(附解析)(1)分类变量和列联表①分类变量变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.②列联表(ⅰ)定义:列出的两个分类变量的频数表,称为列联表.(ⅱ)2×2列联表.一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为(2)等高条形图①等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.②观察等高条形图发现aa+b和cc+d相差很大,就判断两个分类变量之间有关系.(3)独立性检验一、用2×2列联表分析两分类变量间的关系1.在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁以上的70人,六十岁以下的54人.六十岁以上的人中有43人的饮食以蔬菜为主,另外27人则以肉类为主;六十岁以下的人中有21人饮食以蔬菜为主,另外33人则以肉类为主.请根据以上数据作出饮食习惯与年龄的列联表,并利用aa+b与cc+d判断二者是否有关系.解:2×2列联表如下:a a+b =4364=0.671 875.cc+d=2760=0.45.显然二者数据具有较为明显的差距,据此可以在某种程度上认为饮食习惯与年龄有关系.注:(1)作2×2列联表时,关键是对涉及的变量分清类别.计算时要准确无误.(2)利用2×2列联表分析两个分类变量间的关系时,首先要根据题中数据获得2×2列联表,然后根据频率特征,即将aa+b与cc+d⎝⎛⎭⎪⎫ba+b与dc+d的值相比,直观地反映出两个分类变量间是否相互影响,但方法较粗劣.2.假设有两个分类变量X与Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表为:则当m取下面何值时,X)A.8B.9C.14D.19解析:选C由10×26≈18m,解得m≈14.4,所以当m=14时,X与Y的关系最弱.3.分类变量X和Y的列联表如下:则下列说法正确的是()A.ad-bc越小,说明X与Y关系越弱B.ad-bc越大,说明X与Y关系越强C.(ad-bc)2越大,说明X与Y关系越强D.(ad-bc)2越接近于0,说明X与Y关系越强解析:选C|ad-bc|越小,说明X与Y关系越弱,|ad-bc|越大,说明X与Y关系越强.4.假设有两个变量X与Y,它们的取值分别为x1,x2和y1,y2,其列联表为:为()A.a=50,b=40,c=30,d=20B.a=50,b=30,c=40,d=20C.a=20,b=30,c=40,d=50 D.a=20,b=30,c=50,d=40解析:选D当(ad-bc)2的值越大,随机变量K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)的值越大,可知X与Y有关系的可能性就越大.显然选项D中,(ad-bc)2的值最大.5.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:________(填“是”或“否”).解析:因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即ba+b=1858,dc+d=2742,两者相差较大,所以经直观分析,收看新闻节目的观众与年龄是有关的.答案:是二、用等高条形图分析两分类变量间的关系1.某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类型是否有关系.解:作列联表如下:续表考前心情不紧94381475张总计426594 1 020相应的等高条形图如图所示:图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的人数的比例,从图中可以看出考前心情紧张的样本中性格内向的人数占的比例比考前心情不紧张样本中性格内向的人数占的比例高,可以认为考前紧张与性格类型有关.注:利用等高条形图判断两个分类变量是否相关的步骤:2.在调查的480名男人中有38人患色盲,520名女人中有6名患色盲,试利用图形来判断色盲与性别是否有关?解:根据题目给出的数据作出如下的列联表:色盲不色盲总计男38442480女6514520总计449561000根据列联表作出相应的等高条形图:从等高条形图来看,在男人中患色盲的比例要比在女人中患色盲的比例大得多,因此,我们认为患色盲与性别是有关系的.3.观察下列各图,其中两个分类变量x,y之间关系最强的是()解析:选D在四幅图中,D图中两个深色条的高相差最明显,说明两个分类变量之间关系最强.4.在独立性检验中,可以粗略地判断两个分类变量是否有关系的是() A.散点图B.等高条形图C.假设检验的思想D.以上都不对解析:选B用等高条形图可以粗略地判断两个分类变量是否有关系,体现了数形结合思想,但是无法给出结论的可信程度,故选B.5.为了研究子女吸烟与父母吸烟的关系,调查了一千多名青少年及其家长,数据如下:父母吸烟父母不吸烟总计子女吸烟23783320子女不吸烟678522 1 200总计915605 1 520利用等高条形图判断父母吸烟对子女吸烟是否有影响?解:等高条形图如图所示:由图形观察可以看出父母吸烟者中子女吸烟的比例要比父母不吸烟者中子女吸烟的比例高,因此可以在某种程度上认为“子女吸烟与父母吸烟有关系”.三、独立性检验1.研究人员选取170名青年男女大学生为样本,对他们进行一种心理测验.发现有60名女生对该心理测验中的最后一个题目的反应是:作肯定的有22名,否定的有38名;110名男生在相同的项目上作肯定的有22名,否定的有88名.问:性别与态度之间是否存在某种关系?用独立性检验的方法判断.(链接教材P95-例1)附:解:根据2×2k=170×(22×38-22×88)2110×60×44×126≈5.622>5.024.所以在犯错误的概率不超过0.025的前提下,认为“性别与态度有关系”.注:根据题意列出2×2列联表,计算K2的观测值,如果K2的观测值很大,说明两个分类变量有关系的可能性很大;如果K2的观测值比较小,则认为没有充分的证据显示两个分类变量有关系.2.“开门大吉”是某电视台推出的游戏节目.选手面对1~8号8扇大门,依次按响门上的门铃,门铃会播放一段音乐(将一首经典流行歌曲以单音色旋律的方式演绎),选手需正确回答出这首歌的名字,方可获得该扇门对应的家庭梦想基金.在一次场外调查中,发现参赛选手多数分为两个年龄段:20~30;30~40(单位:岁),其猜对歌曲名称与否的人数如图所示.(1)写出2×2列联表;判断能否在犯错误的概率不超过0.10的前提下认为猜对歌曲名称与年龄有关系;说明你的理由;(下面的临界值表供参考)P(K2≥k0)0.100.050.0100.005k0 2.706 3.841 6.6357.879(2)6名选手,并抽取3名幸运选手,求3名幸运选手中至少有一人在20~30岁之间的概率.解:(1)根据所给的二维条形图得到列联表:正确错误总计20~30岁10304030~40岁107080总计20100120k=120×(10×70-10×30)220×100×40×80=3.∵3>2.706,∴在犯错误的概率不超过0.10的前提下认为猜对歌曲名称与年龄有关系.(2)按照分层抽样方法可知,20~30(岁)抽取:6×40120=2(人);30~40(岁)抽取:6×80120=4(人).在上述抽取的6名选手中,年龄在20~30(岁)有2人,年龄在30~40(岁)有4人.记至少有一人年龄在20~30岁为事件A,则P(A)=1-C34C36=1-420=45.故至少有一人年龄在20~30岁之间的概率为4 5.3.在一项中学生近视情况的调查中,某校男生150名中有80名近视,女生140名中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力()A.平均数与方差B.回归分析C.独立性检验D.概率解析:选C判断两个分类变量是否有关的最有效方法是进行独立性检验.4.对于分类变量X与Y的随机变量K2的观测值k,下列说法正确的是() A.k越大,“X与Y有关系”的可信程度越小B.k越小,“X与Y有关系”的可信程度越小C.k越接近于0,“X与Y没有关系”的可信程度越小D.k越大,“X与Y没有关系”的可信程度越大解析:选B k越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大,即k越小,“X与Y有关系”的可信程度越小.5.某班主任对全班50名学生进行了作业量的调查,数据如下表,则学生的性别与认为作业量的大小有关的把握大约为()A.99%C.90% D.无充分证据解析:选B由2×2列联表得K2的观测值k=50×(18×15-8×9)2 27×23×26×24≈5.059>5.024,故有97.5%的把握认为学生性别与认为作业量大小有关,故选B.6.为了解决高二年级统计案例入门难的问题,某校在高一年级的数学教学中设有试验班,着重加强统计思想的渗透,下面是高二年级统计案例的测验成绩统计表(单位:分)的一部分,试分析试验效果.附:解:k=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=100(32×38-18×12)250×50×44×56≈16.234.因为16.234>6.635,所以,在犯错误的概率不超过0.01的前提下认为高二年级统计案例的测试成绩与高一年级数学教学中增加统计思想的渗透有联系.巩固练习:1.下列关于K2的说法不正确的是()A.根据2×2列联表中的数据计算得出K2的观测值k≥6.635,而P(K2≥6.635)≈0,01,则有99%的把握认为两个分类变量有关系B.K2的观测值k越大,两个分类变量的相关性就越大C.K2是用来判断两个分类变量是否有关系的随机变量D.K2=n(ad-bc)(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d为样本容量解析:选D D选项的公式中分子应该是n(ad-bc)2.故选D.2.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是()表1表2A.成绩B.视力C.智商D.阅读量解析:选D因为K21=52×(6×22-14×10)2 16×36×32×20=52×8216×36×32×20,K22=52×(4×20-16×12)216×36×32×20=52×112216×36×32×20,K23=52×(8×24-12×8)216×36×32×20=52×96216×36×32×20,K24=52×(14×30-6×2)216×36×32×20=52×408216×36×32×20,则有K24>K22>K23>K21,所以阅读量与性别有关联的可能性最大.2.在某次独立性检验中,得到如下列联表:最后发现,两个分类变量没有任何关系,则a的值可能是() A.200 B.720C.100 D.180解析:选B由于A和B没有任何关系,根据列联表可知2001 000和180180+a基本相等,检验可知,B满足条件,故选B.3.两个分类变量X,Y,它们的取值分别为{x1,x2}和{y1,y2},其列联表为:若两个分类变量X,Y没有关系,则下列结论正确的是________(填序号).①ad≈bc;②aa+b≈cc+d;③c+da+b+c+d≈b+da+b+c+d;④c+aa+b+c+d≈b+da+b+c+d;⑤(a+b+c+d)(ad-bc)2(a+b)(b+d)(a+c)(c+d)≈0.解析:因为分类变量X,Y独立,所以aa+b ≈cc+d,化简得ad≈bc,所以①②⑤正确,③④显然不正确.答案:①②⑤4.随着生活水平的提高,人们患肝病的越来越多,为了解中年人患肝病与经常饮酒是否有关,现对30名中年人进行了问卷调查得到如下列联表:已知在全部30人中随机抽取1人,抽到肝病患者的概率为4 15.(1)请将上面的列联表补充完整,并判断是否有99.5%的把握认为患肝病与常饮酒有关?说明你的理由;(2)现从常饮酒且患肝病的中年人(恰有2名女性)中,抽取2人参加电视节目,则正好抽到一男一女的概率是多少?解:(1)设患肝病中常饮酒的人有x人,x+230=415,x=6.常饮酒不常饮酒总计患肝病628 不患肝病41822 总计102030由已知数据可求得K2=30×(6×18-2×4)210×20×8×22≈8.523>7.879,因此有99.5%的把握认为患肝病与常饮酒有关.(2)设常饮酒且患肝病的男性为A,B,C,D,女性为E,F,则任取两人有AB,AC,AD,AE,AF,BC,BD,BE,BF,CD,CE,CF,DE,DF,EF,共15种.其中一男一女有AE,AF,BE,BF,CE,CF,DE,DF,共8种.故抽出一男一女的概率是P=8 15.5.某食品厂为了检查甲乙两条自动包装流水线的生产情况,随机在这两条流水线上各抽取40件产品作为样本称出它们的质量(单位:克),质量值落在(495,510]的产品为合格品,否则为不合格品.表1是甲流水线样本频数分布表,图1是乙流水线样本频率分布直方图.表1甲流水线样本频数分布表产品质量/克频数(490,495] 6(495,500]8(500,505]14(505,510]8(510,515] 4(1)根据上表数据作出甲流水线样本频率分布直方图;(2)若以频率作为概率,试估计从两条流水线分别任取1件产品,该产品恰好是合格品的概率分别是多少;(3)由以上统计数据作出2×2列联表,并回答在犯错误的概率不超过多少的前提下认为“产品的包装质量与两条要自动包装流水线的选择有关”.解:(1)甲流水线样本频率分布直方图如下:(2)由表1知甲样本合格品数为8+14+8=30,由图1知乙样本中合格品数为(0.06+0.09+0.03)×5×40=36,故甲样本合格品的频率为3040=0.75,乙样本合格品的频率为3640=0.9,据此可估计从甲流水线任取1件产品,该产品恰好是合格品的概率为0.75. 从乙流水线任取1件产品,该产品恰好是合格品的概率为0.9. (3)2×2列联表如下:甲流水线 乙流水线 总计 合格品 a =30 b =36 66 不合格品 c =10 d =4 14 总计4040n =80因为K 2k =n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=80×(120-360)266×14×40×40≈3.117>2.706, 所以在犯错误的概率不超过0.1的前提下认为产品的包装质量与两条自动包装流水线的选择有关.。
【新部编版】2019-2020高考数学三轮冲刺 专题 回归分析及独立性检验练习(含解析)
回归分析及独立性检验一、选择题(本大题共12小题,共60分)1. 设某中学的高中女生体重单位:与身高单位:具有线性相关关系,根据一组样本数据2,3,,,用最小二乘法近似得到回归直线方程为,则下列结论中不正确的是A. y与x具有正线性相关关系B. 回归直线过样本的中心点C. 若该中学某高中女生身高增加1cm,则其体重约增加D. 若该中学某高中女生身高为160cm,则可断定其体重必为(正确答案)D【分析】本题考查了回归分析与线性回归方程的应用问题,是基础题目根据回归分析与线性回归方程的意义,对选项中的命题进行分析、判断正误即可.【解答】解:由于线性回归方程中x的系数为,因此y与x具有正的线性相关关系,A正确;由线性回归方程必过样本中心点,因此B正确;由线性回归方程中系数的意义知,x每增加1cm,其体重约增加,C正确;当某女生的身高为160cm时,其体重估计值是,而不是具体值,因此D错误.故选:D.2. 为了研究某班学生的脚长单位:厘米和身高单位:厘米的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其回归直线方程为,已知,,,该班某学生的脚长为24,据此估计其身高为A. 160B. 163C. 166D. 170(正确答案)C解:由线性回归方程为,则,,则数据的样本中心点,由回归直线方程样本中心点,则,回归直线方程为,当时,,则估计其身高为166,故选C.由数据求得样本中心点,由回归直线方程必过样本中心点,代入即可求得,将代入回归直线方程即可估计其身高.本题考查回归直线方程的求法及回归直线方程的应用,考查计算能力,属于基础题.3. 为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:x 万元y 万元据上表得回归直线方程,其中,,据此估计,该社区一户收入为15万元家庭年支出为A. 万元B. 万元C. 万元D. 万元(正确答案)B解:由题意可得,,代入回归方程可得,回归方程为,把代入方程可得,故选:B.由题意可得和,可得回归方程,把代入方程求得y值即可.本题考查线性回归方程,涉及平均值的计算,属基础题.4. 下列说法错误的是A. 回归直线过样本点的中心B. 两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于1C. 在回归直线方程中,当解释变量x每增加1个单位时,预报变量平均增加个单位D. 对分类变量X与Y,随机变量的观测值k越大,则判断“X与Y有关系”的把握程度越小(正确答案)D解:回归直线过样本点的中心,正确;B.两个随机变量相关性越强,则相关系数的绝对值越接近1,因此正确;C.在线性回归方程中,当x每增加1个单位时,预报量平均增加个单位,正确;D.对分类变量X与Y的随机变量的观测值k来说,k越大,“X与Y有关系”可信程度越大,因此不正确.综上可知:只有D不正确.故选:D.利用线性回归的有关知识即可判断出.本题考查了线性回归的有关知识,考查了推理能力,属于基础题.5. 某产品的广告费用x与销售额y的统计数据如下表:广告费用万元销售额万元根据上表可得回归方程中的b为,据此模型预报广告费用为6万元时销售额为A. 万元B. 万元C. 万元D. 万元(正确答案)A解:,,数据的样本中心点在线性回归直线上,回归方程中的b为,,,线性回归方程是,广告费用为6万元时销售额为,故选A.首先求出所给数据的平均数,得到样本中心点,根据线性回归直线过样本中心点,求出方程中的一个系数,得到线性回归方程,把自变量为6代入,预报出结果.本题考查线性回归方程的求法和应用,是一个基础题,本题解答关键是利用线性回归直线必定经过样本中心点.6. 观察下面频率等高条形图,其中两个分类变量x,y之间关系最强的是A. B.C. D.(正确答案)D解:在频率等高条形图中,与相差很大时,我们认为两个分类变量有关系,四个选项中,即等高的条形图中,所占比例相差越大,则分类变量x,y关系越强,故选D.在频率等高条形图中,与相差很大时,我们认为两个分类变量有关系,即可得出结论.本题考查独立性检验内容,使用频率等高条形图,可以粗略的判断两个分类变量是否有关系,但是这种判断无法精确的给出所的结论的可靠程度.7. 某小卖部销售一品牌饮料的零售价元瓶与销量瓶的关系统计如下:零售价瓶销量已知x,y的关系符合线性回归方程,其中,当单价为元时,估计该小卖部销售这种品牌饮料的销量为A. 20B. 22C. 24D. 26(正确答案)D解:;,,回归直线方程为:,当时,,故选:D.利用平均数公式计算平均数,,利用求出a,即可得到回归直线方程,把代入回归方程求出y值.本题考查回归方程的求法,考查学生的计算能力,运算要细心.8. 为考察A、B两种药物预防某疾病的效果,进行动物试验,分别得到如下等高条形图:根据图中信息,在下列各项中,说法最佳的一项是A. 药物A、B对该疾病均没有预防效果B. 药物A、B对该疾病均有显著的预防效果C. 药物A的预防效果优于药物B的预防效果D. 药物B的预防效果优于药物A的预防效果(正确答案)C解:根据两个表中的等高条形图知,药物A实验显示不服药与服药时患病的差异较药物B实验显示明显大,药物A的预防效果优于药物B的预防效果.故选:C.根据两个表中的等高条形图看药物A的预防效果优于药物B的预防效果.本题考查了等高条形图的应用问题,是基础题.9. 下列说法错误的是A. 回归直线过样本点的中心B. 两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于1C. 对分类变量X与Y,随机变量的观测值越大,则判断“X与Y有关系”的把握程度越小D. 在回归直线方程中,当解释变量x每增加1个单位时预报变量平均增加个单位(正确答案)C解:回归直线过样本点的中心,正确;B.两个随机变量相关性越强,则相关系数的绝对值越接近1,因此正确;C.对分类变量X与Y的随机变量的观测值k来说,k越大,“X与Y有关系”可信程度越大,因此不正确;D.在线性回归方程中,当x每增加1个单位时,预报量平均增加个单位,正确.综上可知:只有C不正确.故选:C.利用线性回归的有关知识即可判断出.本题考查了线性回归的有关知识,考查了推理能力,属于中档题.10. 在利用最小二乘法求回归方程时,用到了如表中的5组数据,则表格a中的值为A. 68B. 70C. 75D. 72(正确答案)A解:由题意可得,,因为回归直线方程,过样本点的中心点,所以,解得故选A.由题意回归直线方程,过样本点的中心点,即可得a的值.本题考查线性回归方程,利用回归直线过样本点的中心点是解决问题的关键,属基础题.11. 如表提供了某厂节能降耗改造后在生产A产品过程中记录的产量吨与相应的生产能耗吨的几组对应数据,根据表中提供的数据,求出y关于x的线性回归方程为,则下列结论错误的是A. 线性回归直线一定过点B. 产品的生产能耗与产量呈正相关C. t的取值必定是D. A产品每多生产1吨,则相应的生产能耗约增加吨(正确答案)C解:,则,即线性回归直线一定过点,故A正确,,产品的生产能耗与产量呈正相关,故B正确,,得,故C错误,A产品每多生产1吨,则相应的生产能耗约增加吨,故D正确故选:C根据回归直线的性质分别进行判断即可.本题主要考查命题的真假判断,根据回归直线的性质分别进行判断是解决本题的关键比较基础.12. 已知x,y的取值如表所示,若y与x线性相关,且,则A. B. C. D.(正确答案)A解:由图表知,,,代入,得,解得.故选:A.由图表求得,,代入回归直线方程得答案.本题考查线性回归方程,关键是明确线性回归直线恒过样本中心点,是基础题.二、填空题(本大题共4小题,共20分)13. 给出下列命题:线性相关系数r越大,两个变量的线生相关性越强;反之,线性相关性越弱;由变量x和y的数据得到其回归直线方程l:,则l一定经过点;从匀速传递的产品生产流水线上,质检员每10分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;在回归分析模型中,残差平方和越小,说明模型的拟合效果越好;在回归直线方程中,当解释变量x每增加一个单位时,预报变量增加个单位;其中真命题的序号是______ .(正确答案)解:线性相关系数越大,两个变量的线性相关性越强,故不正确;由变量x和y的数据得到其回归直线方程l:,则l一定经过点,故正确;从匀速传递的产品生产流水线上,质检员每10分钟从中抽取一件产品进行某项指标检测,这样的抽样不是分层抽样,故不正确;可用残差平方和判断模型的拟合效果,残差平方和越小,模型的拟合效果越好,故正确;在回归直线方中,当解释变量x每增加一个单位时,预报变量平均增加个单位,故正确.故答案为:.线性相关系数越大,两个变量的线性相关性越强;回归直线方程l:,一定经过样本中心点;从匀速传递的产品生产流水线上,质检员每10分钟从中抽取一件产品进行某项指标检测,这样的抽样系统抽样;可用残差平方和判断模型的拟合效果,残差平方和越小,模型的拟合效果越好;在回归直线方中,当解释变量x每增加一个单位时,预报变量平均增加个单位.本题考查独立性检验,考查分层抽样方法,考查线性回归方程,考查判断两个相关变量之间的关系,是一个综合题目,这种题考查的知识点比较多,需要认真分析.14. 某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验根据收集到的数据如表:零件数加工时间分钟由最小二乘法求得回归方程,则a的值为______ .(正确答案)解:由题意,计算,,且回归直线方程的图象过样本中心点,所以.故答案为:.根据回归直线方程的图象过样本中心点,求出平均数代入方程即可求出a的值.本题考查了回归直线方程的图象过样本中心点的应用问题,是基础题目.15. 如图是一组数据的散点图,经最小二乘法计算,得y与x之间的线性回归方程为,则______.(正确答案)解:由散点图得:,,将代入,解得:,故答案为:.求出样本点的中心,代入回归方程求出系数的值即可.本题考查了回归方程,考查样本点的中心,是一道基础题.16. 对具有线性相关关系的变量x,y有一组观测数据2,,,其回归直线方程是,且,请估算时, ______ .(正确答案)解:,,,样本中心点的坐标为,代入回归直线方程得,,.时,.故答案为:.求出横标和纵标的平均数,写出样本中心点,把样本中心点代入线性回归方程,得到关于a的方程,解方程即可.本题考查线性回归方程,解题的关键是线性回归直线一定过样本中心点,这是求解线性回归方程的步骤之一.三、解答题(本大题共3小题,共40分)17. 某职称晋级评定机构对参加某次专业技术考试的100人的成绩进行了统计,绘制了频率分布直方图如图所示,规定80分及以上者晋级成功,否则晋级失败.Ⅰ求图中a的值;Ⅱ根据已知条件完成下面列联表,并判断能否有的把握认为“晋级成功”与性别有关?Ⅲ将频率视为概率,从本次考试的所有人员中,随机抽取4人进行约谈,记这4人中晋级失败的人数为X,求X 的分布列与数学期望.参考公式:,其中(正确答案)解:Ⅰ由频率分布直方图各小长方形面积总和为1,可知,解得;Ⅱ由频率分布直方图知,晋级成功的频率为,所以晋级成功的人数为人,填表如下:假设“晋级成功”与性别无关,根据上表数据代入公式可得,所以有超过的把握认为“晋级成功”与性别有关;Ⅲ由频率分布直方图知晋级失败的频率为,将频率视为概率,则从本次考试的所有人员中,随机抽取1人进行约谈,这人晋级失败的概率为,所以X可视为服从二项分布,即,,故,,,,,所以X的分布列为数学期望为,或Ⅰ由频率和为1,列出方程求a的值;Ⅱ由频率分布直方图求出晋级成功的频率,计算晋级成功的人数,填写列联表,计算观测值,对照临界值得出结论;Ⅲ由频率分布直方图知晋级失败的频率,将频率视为概率,知随机变量X服从二项分布,计算对应的概率值,写出分布列,计算数学期望;本题考查了频率分布直方图与独立性检验和离散型随机变量的分布列、数学期望的应用问题,是中档题.18. 近年来,手机已经成为人们日常生活中不可缺少的产品,手机的功能也日趋完善,已延伸到了各个领域,如拍照,聊天,阅读,缴费,购物,理财,娱乐,办公等等,手机的价格差距也很大,为分析人们购买手机的消费情况,现对某小区随机抽取了200人进行手机价格的调查,统计如下:元及元元元Ⅰ完成关于人们使用手机的价格和年龄的列联表,再判断能否在犯错误的概率不超过的前提下,认为人们使用手机的价格和年龄有关?Ⅱ如果用分层抽样的方法从样本手机价格在5000元及以上的人群中选择5人调查他的收入状况,再从这5人中选3人,求3人的年龄都在45岁及以下的概率.附(正确答案)解:Ⅰ列联表,在犯错误的概率不超过的前提下,认为人们使用手机的价格和年龄有关;Ⅱ样本手机价格在5000元及以上的人共15人,用分层抽样的方法选择5人,45岁及以下的抽取4人,45岁以上的抽取1人,从这5人中选3人,有种情况,3人的年龄都在45岁及以下,有4种情况,人的年龄都在45岁及以下的概率为.Ⅰ由题中数据可得列联表,计算,从而与临界值比较,即可得到结论;Ⅱ样本手机价格在5000元及以上的人共15人,用分层抽样的方法选择5人,45岁及以下的抽取4人,45岁以上的抽取1人,从这5人中选3人,有种情况,3人的年龄都在45岁及以下,有4种情况,即可求出3人的年龄都在45岁及以下的概率.本题考查概率的计算,考查独立性检验知识,考查学生的计算能力,属于中档题.19. 在“新零售”模式的背景下,某大型零售公司为推广线下分店,计划在S市的A区开设分店为了确定在该区开设分店的个数,该公司对该市已开设分店的其他区的数据作了初步处理后得到下列表格记x表示在各区开设分店的个数,y表示这x个分店的年收入之和.个百万元Ⅰ该公司已经过初步判断,可用线性回归模型拟合y与x的关系,求y关于x的线性回归方程;Ⅱ假设该公司在A区获得的总年利润单位:百万元与x,y之间的关系为,请结合Ⅰ中的线性回归方程,估算该公司应在A区开设多少个分店时,才能使A区平均每个分店的年利润最大?参考公式:,,.(正确答案)解:Ⅰ,,,,关于x的线性回归方程.Ⅱ,A区平均每个分店的年利润,时,t取得最大值,故该公司应在A区开设4个分店时,才能使A区平均每个分店的年利润最大Ⅰ求出回归系数,可得y关于x的线性回归方程;Ⅱ求出A区平均每个分店的年利润,利用基本不等式,可得结论.本题考查回归方程,考查基本不等式的运用,正确求出回归方程是关键.。
高考数学回归分析与独立性检验选择题
高考数学回归分析与独立性检验选择题1. 下列关于回归分析的描述中,正确的是:A. 回归分析只能用于变量之间存在线性关系的情况B. 回归分析只能用于变量之间存在正相关关系的情况C. 回归分析只能用于变量之间存在负相关关系的情况D. 回归分析可以用于变量之间存在非线性关系的情况2. 回归分析中的残差是指:A. 实际值与预测值之间的差B. 预测值与平均值之间的差C. 实际值与平均值之间的差D. 预测值与中位数之间的差3. 回归分析中的自变量和因变量是指:A. 自变量是影响因变量的因素,因变量是自变量的结果B. 自变量是因变量的结果,因变量是影响自变量的因素C. 自变量和因变量是相互独立的D. 自变量和因变量是相互依赖的4. 回归分析中的回归系数是指:A. 因变量与自变量之间的相关系数B. 因变量与自变量之间的协方差系数C. 因变量与自变量之间的相关系数和协方差系数之和D. 因变量与自变量之间的协方差系数和标准差之比5. 独立性检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系6. 独立性检验中的卡方检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系7. 独立性检验中的皮尔逊卡方检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系8. 独立性检验中的似然比检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系9. 独立性检验中的费舍尔精确检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系10. 独立性检验中的麦克尼马尔检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系11. 下列关于独立性检验的描述中,正确的是:A. 独立性检验只能用于变量之间存在线性关系的情况B. 独立性检验只能用于变量之间存在正相关关系的情况C. 独立性检验只能用于变量之间存在负相关关系的情况D. 独立性检验可以用于变量之间存在非线性关系的情况12. 独立性检验中的显著性水平是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度13. 独立性检验中的自由度是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度14. 独立性检验中的P值是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度15. 独立性检验中的临界值是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度16. 下列关于独立性检验的描述中,正确的是:A. 独立性检验只能用于变量之间存在线性关系的情况B. 独立性检验只能用于变量之间存在正相关关系的情况C. 独立性检验只能用于变量之间存在负相关关系的情况D. 独立性检验可以用于变量之间存在非线性关系的情况17. 独立性检验中的卡方检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系18. 独立性检验中的皮尔逊卡方检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系19. 独立性检验中的似然比检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系20. 独立性检验中的费舍尔精确检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系21. 下列关于独立性检验的描述中,正确的是:A. 独立性检验只能用于变量之间存在线性关系的情况B. 独立性检验只能用于变量之间存在正相关关系的情况C. 独立性检验只能用于变量之间存在负相关关系的情况D. 独立性检验可以用于变量之间存在非线性关系的情况22. 独立性检验中的显著性水平是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度23. 独立性检验中的自由度是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度24. 独立性检验中的P值是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度25. 独立性检验中的临界值是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度26. 下列关于独立性检验的描述中,正确的是:A. 独立性检验只能用于变量之间存在线性关系的情况B. 独立性检验只能用于变量之间存在正相关关系的情况C. 独立性检验只能用于变量之间存在负相关关系的情况D. 独立性检验可以用于变量之间存在非线性关系的情况27. 独立性检验中的卡方检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系28. 独立性检验中的皮尔逊卡方检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系29. 独立性检验中的似然比检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系30. 独立性检验中的费舍尔精确检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系31. 下列关于独立性检验的描述中,正确的是:A. 独立性检验只能用于变量之间存在线性关系的情况B. 独立性检验只能用于变量之间存在正相关关系的情况C. 独立性检验只能用于变量之间存在负相关关系的情况D. 独立性检验可以用于变量之间存在非线性关系的情况32. 独立性检验中的显著性水平是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度33. 独立性检验中的自由度是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度34. 独立性检验中的P值是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度35. 独立性检验中的临界值是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度36. 下列关于独立性检验的描述中,正确的是:A. 独立性检验只能用于变量之间存在线性关系的情况B. 独立性检验只能用于变量之间存在正相关关系的情况C. 独立性检验只能用于变量之间存在负相关关系的情况D. 独立性检验可以用于变量之间存在非线性关系的情况37. 独立性检验中的卡方检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系38. 独立性检验中的皮尔逊卡方检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系39. 独立性检验中的似然比检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系40. 独立性检验中的费舍尔精确检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系41. 下列关于独立性检验的描述中,正确的是:A. 独立性检验只能用于变量之间存在线性关系的情况B. 独立性检验只能用于变量之间存在正相关关系的情况C. 独立性检验只能用于变量之间存在负相关关系的情况D. 独立性检验可以用于变量之间存在非线性关系的情况42. 独立性检验中的显著性水平是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度43. 独立性检验中的自由度是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度44. 独立性检验中的P值是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度45. 独立性检验中的临界值是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度46. 下列关于独立性检验的描述中,正确的是:A. 独立性检验只能用于变量之间存在线性关系的情况B. 独立性检验只能用于变量之间存在正相关关系的情况C. 独立性检验只能用于变量之间存在负相关关系的情况D. 独立性检验可以用于变量之间存在非线性关系的情况47. 独立性检验中的卡方检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系48. 独立性检验中的皮尔逊卡方检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系49. 独立性检验中的似然比检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系50. 独立性检验中的费舍尔精确检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系。
回归分析+独立性检验大题答案版
1.某公司为了增加销售额,经过了一系列的宣传方案,经统计广告费用x 万元与销售额y 万(2)若广告费用投入8万元,请预测销售额会达到多少万元?参考公式bx y a xn x y x n y xb i n i i ni i-=-⋅-⋅=∑∑==,2211【答案】(1)4.04.1+=x y (2)11.6【解析】 试题分析: (1)求出x,y 的平均数,得到回归系数,即可求销售额y 关于广告费用x 的线性回归方程; (2)把x=8代入,能广告费用投入8万元预测销售额 试题解析:(1)4.0,4.16474=-==-=x b y a b所以销售额y 关于广告费用x 的线性回归方程是4.04.1+=x y (2)广告费用投入8万元,销售额约为6.114.04.1=+=x y 万元考点:线性回归方程已知在全班50人中随机抽取1人,抽到喜爱打篮球的学生的概率为35. (1)请将上表补充完整(不用写计算过程);(2)能否有99.5﹪的把握认为喜爱打篮球与性别有关?说明你的理由. 下面的临界值表供参考:(参考公式:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++)【答案】(1)详见解析;(2)有99.5﹪的把握认为喜爱打篮球与性别有关. 【解析】试题分析:(1)首先通过全班50人中随机抽取1人,抽到喜爱打篮球的学生的概率为35,得出喜爱打篮球的共有30人,进而完善此表;(2)通过列联表代入计算公式,得到2K 的值,再查对临界值表,据此回答能否有99.5﹪的把握认为喜爱打篮球与性别有关.(2)Q 22()()()()()n ad bc K a b c d a c b d -=++++50(2015105)7.87930202525⨯⨯-⨯=≈⨯⨯⨯ ∴有99.5﹪的把握认为喜爱打篮球与性别有关.考点:独立性检验.3.某车间为了制定工时定额,需要确定加工零件抽用时间,为此做了四次试验,得到的数(2)求出回归方程;(3)根据回归方程估计加工10个零件需要多少个小时。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
专题十一 概率与统计
第三十三讲 回归分析与独立性检验
一、选择题
1.(2017山东)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关
系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相
关关系,设其回归直线方程为ˆˆˆy bx a =+.已知101
225i i x ==∑,10
1
1600i i y ==∑,ˆ4b =.该
班某学生的脚长为24,据此估计其身高为
A .160
B .163
C .166
D .170
2.(2015福建)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户
家庭,得到如下统计数据表:
根据上表可得回归本线方程ˆˆˆy
bx a =+ ,其中ˆˆˆ0.76,b a y bx ==- ,据此估计,该社区一户收入为15万元家庭年支出为
A .11.4万元
B .11.8万元
C .12.0万元
D .12.2万元 3.(2014重庆)已知变量x 与y 正相关,且由观测数据算得样本的平均数3x =, 3.5y =,
则由该观测数据算得的线性回归方程可能为
A .0.4 2.3y x =+
B .2 2.4y x =-
C .29.5y x =-+
D .0.3 4.4y x =-+ 4.(2014湖北)根据如下样本数据
得到的回归方程为ˆy
bx a =+,则 A .0a >,0b < B .0a >,0b > C .0a <,0b < D .0a <,0b > 5.(2012新课标)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不
全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线1
12
y x =+上,则这组样本数据的样本相关系数为
A .−1
B .0
C .1
2
D .1
6.(2014江西)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量之间的关
系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是
7.(2012湖南)设某大学的女生体重y (单位:kg )与身高x (单位:cm )具有线性相关关
系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为
y =0.85x -85.71,则下列结论中不正确...
的是 A .y 与x 具有正的线性相关关系 B .回归直线过样本点的中心(x ,y )
C .若该大学某女生身高增加1cm ,则其体重约增加0.85kg
D .若该大学某女生身高为170cm ,则可断定其体重必为58.79kg 8.(2011山东)某产品的广告费用x 与销售额y 的统计数据如下表
根据上表可得回归方程ˆˆˆy bx a =+中的ˆb 为9.4,据此模型预报广告费用为6万元时销
售额为
A .63.6万元
B .65.5万元
C .67.7万元
D .72.0万元
二、解答题
9.(2018全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)
的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1217,,…,)建立模
型①:ˆ30.413.5=-+y
t ;根据2010年至2016年的数据(时间变量t 的值依次为127,,…,)建立模型②:ˆ9917.5=+y
t . (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.
10.(2016年全国III)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)
的折线图
(Ⅰ)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (Ⅱ)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化
处理量.
附注:参考数据:
7
1
9.32i
i y
==∑,7
1
40.17i i i t y ==∑
0.55=
≈2.646.
参考公式:相关系数()()
n
i i
t t y y r --=
∑ 回归方程y a bt =+中斜率和截距的最小二乘估计公式分别为:
1
2
1
()()
()
n
i
i
i n
i i t t y y b t t ==--=
-∑∑,=.a y bt -
11.(2015新课标1)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费
x (单
位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的年宣传费i x 和年销售量i y (i =1,2,···,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
表中i w =w =
18
8
1
i i w =∑.
(Ⅰ)根据散点图判断,y a bx =+与y c =+哪一个适宜作为年销售量y 关于年
宣传费x 的回归方程类型?(给出判断即可,不必说明理由) (Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立y 关于x 的回归方程;
(Ⅲ)已知这种产品的年利率z 与x 、y 的关系为0.2z y x =-.根据(Ⅱ)的结果回
答下列问题:
(ⅰ)年宣传费x =49时,年销售量及年利润的预报值是多少? (ⅱ)年宣传费x 为何值时,年利率的预报值最大?
附:对于一组数据11(,)u v ,22(,)u v ,⋅⋅⋅,(,)n n u v ,其回归线v u αβ=+的斜率和
截距的最小二乘估计分别为
1
2
1
()()
ˆ()
n
i
i
i n
i
i u u v v u u β
==--=-∑∑,ˆˆv u α
β=-. 12.(2014新课标2)某地区2007年至2013年农村居民家庭纯收入y (单位:千元)的数
据如下表:
(Ⅰ)求y 关于t 的线性回归方程;
(Ⅱ)利用(Ⅰ)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收
入的变化情况,并预测该地区2015年农村居民家庭人均纯收入. 附:回归直线的斜率和截距的最小二乘估计公式分别为:
()()
()
1
2
1
n
i
i
i n
i i t t y y b t t ∧
==--=
-∑∑,ˆˆa
y bt =- 13.(2012辽宁)电视传媒公司为了解某地区电视观众对某体育节目的收视情况,随机抽取
了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:
将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.
(I )根据已知条件完成下面22⨯列联表,并据此资料你是否认为“体育迷”与性别有关?
(II )将日均收看该体育节目不低于50分钟的观众称为“超级体育迷”,已知“超级体育
迷”中有2名女性.若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.
2
1212
211222112
)(++++-=n n n n n n n n n χ,
附:。