2019版高考数学总复习第十章算法初步统计统计案例58变量间的相关关系与统计案例课时作业文20180
2019版高考数学(文)第9章 统计、统计案例 第3讲变量相关关系与统计案例 Word版含答案
第讲变量相关关系与统计案例板块一知识梳理·自主学习[必备知识]考点变量间的相关关系.常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系..从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.考点回归方程与回归分析.线性相关关系与回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线..回归方程()最小二乘法:求回归直线使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.()回归方程:方程=+是两个具有线性相关关系的变量的一组数据(,),(,),…,(,)的回归方程,其中,是待定数..回归分析()定义:对具有相关关系的两个变量进行统计分析的一种常用方法.()样本点的中心:在具有线性相关关系的数据(,),(,),…,(,)中,=(+…+),=(+…+),=-,(,)称为样本点的中心.()相关系数=,当>时,两变量正相关,当<时,两变量负相关,当≤且越接近于,相关程度越强,当≤且越接近于,相关程度越弱.考点独立性检验.独立性检验的有关概念()分类变量可用变量的不同“值”表示个体所属的不同类别的变量称为分类变量.()×列联表假设有两个分类变量和,它们的取值分别为{,}和{,},其样本频数列联表(称为×列联表)为总计++总+++++计.独立性检验利用随机变量=(其中=+++为样本容量)来判断“两个变量有关系”的方法称为独立性检验.步骤如下:()计算随机变量的观测值,查表确定临界值:(≥)()如果≥,就推断“与有关系”,这种推断犯错误的概率不超过(≥);否则,就认为在犯错误的概率不超过(≥)的前提下不能推断“与有关系”.[必会结论].相关关系与函数关系的异同共同点:二者都是指两个变量间的关系;。
近年届高考数学一轮复习第十一章统计与统计案例、算法课时训练58变量间的相关关系、统计案例文(202
2019届高考数学一轮复习第十一章统计与统计案例、算法课时跟踪训练58 变量间的相关关系、统计案例文编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(2019届高考数学一轮复习第十一章统计与统计案例、算法课时跟踪训练58 变量间的相关关系、统计案例文)的内容能够给您的工作和学习带来便利。
同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。
本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为2019届高考数学一轮复习第十一章统计与统计案例、算法课时跟踪训练58 变量间的相关关系、统计案例文的全部内容。
课时跟踪训练(五十八)变量间的相关关系、统计案例[基础巩固]一、选择题1.如图是一容量为100的样本质量的频率分布直方图,样本质量均在[5,20]内,其分组为[5,10),[10,15),[15,20],则样本质量落在[15,20]内的频数为()A.10 B.20C.30 D.40[解析]由题意得组距为5,故样本质量在[5,10),[10,15)内的频率分别为0。
3和0。
5,所以样本质量在[15,20]内的频率为1-0.3-0.5=0。
2,频数为100×0.2=20,故选B。
[答案]B2.(2015·重庆卷)重庆市2013年各月的平均气温(℃)数据的茎叶图如下:则这组数据的中位数是()A.19 B.20 C.21.5 D.23[解析]由茎叶图知,该组数据的中位数为错误!=20,故选B。
[答案]B3.(2016·全国卷Ⅲ)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15℃,B点表示四月的平均最低气温约为5℃。
下面叙述不正确的是()A.各月的平均最低气温都在0℃以上B.七月的平均温差比一月的平均温差大C.三月和十一月的平均最高气温基本相同D.平均最高气温高于20℃的月份有5个[解析]由图可知平均最高气温高于20℃的月份为六月、七月和八月,有3个,所以选项D不正确.故选D。
高考数学一轮总复习第十章算法初步、统计与统计案例10.4变量间的相关关系统计案例课时训练理(202
2019年高考数学一轮总复习第十章算法初步、统计与统计案例10.4 变量间的相关关系统计案例课时跟踪检测理编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(2019年高考数学一轮总复习第十章算法初步、统计与统计案例10.4 变量间的相关关系统计案例课时跟踪检测理)的内容能够给您的工作和学习带来便利。
同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。
本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为2019年高考数学一轮总复习第十章算法初步、统计与统计案例10.4 变量间的相关关系统计案例课时跟踪检测理的全部内容。
10。
4 变量间的相关关系统计案例[课时跟踪检测][基础达标]1.(2017届南昌市第一次模拟)为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验,得到5组数据(x1,y1),(x2,y2),(x3,y),(x4,y4),(x5,y5).根据收集到的数据可知x1+x2+x3+x4+x5=150,由3最小二乘法求得回归直线方程为错误!=0.67x+54.9,则y1+y2+y3+y4+y5的值为()A.75 B.115.4C.375 D.466.2解析:由x1+x2+x3+x4+x5=150,得x=30,代入回归直线方程错误!=0。
67x+54.9,得y=75,则y1+y2+y3+y4+y5=375.答案:C2.四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y与x负相关且错误!=2.347x-6.423;②y与x负相关且错误!=-3.476x+5。
648;③y与x正相关且错误!=5。
437x+8.493;④y与x正相关且错误!=-4。
326x-4。
2019高考数学考点突破——统计与统计案例变量间的相关关系与统计案例学案
变量间的相关关系与统计案例【考点梳理】1.回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.2.线性回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^=b ^x +a ^,则b ^=∑ni =1x i -x y i -y ∑ni =1 x i -x 2=∑ni =1x i y i -n x y∑ni =1x 2i -n x2,a ^=y-b ^x .其中,b ^是回归方程的斜率,a ^是在y 轴上的截距.3.残差分析(1)残差:对于样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),它们的随机误差为e i =y i -bx i -a ,i =1,2,…,n ,其估计值为e ^i =y i -y ^i =y i -b ^x i -a ^,i =1,2,…,n ,e ^i 称为相应于点(x i ,y i )的残差.(2)相关指数:R 2=1-∑ni =1y i -y ^i2∑ni =1 y i -y2.4.独立性检验(1)利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验.(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)为y1y2总计x1 a b a+bx2 c d c+d总计a+c b+d a+b+c+d则随机变量K2=n ad-bc2a+b a+c b+d c+d(其中n=a+b+c+d为样本容量).【考点突破】考点一、相关关系的判断【例1】(1)两个变量的相关关系有①正相关,②负相关,③不相关,则下列散点图从左到右分别反映的变量间的相关关系是( )A.①②③ B.②③①C.②①③ D.①③②(2)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关(3)对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3[答案] (1) D (2) C (3) A[解析] (1)第一个散点图中,散点图中的点是从左下角区域分布到右上角区域,则是正相关;第三个散点图中,散点图中的点是从左上角区域分布到右下角区域,则是负相关;第二个散点图中,散点图中的点的分布没有什么规律,则是不相关,所以应该是①③②.(2)因为y =-0.1x +1的斜率小于0,故x 与y 负相关.因为y 与z 正相关,可设z =b ^y+a ^,b ^>0,则z =b ^y +a ^=-0.1b ^x +b ^+a ^,故x 与z 负相关.(3)由相关系数的定义以及散点图所表达的含义可知r 2<r 4<0<r 3<r 1. 【类题通法】1.利用散点图判断两个变量是否有相关关系是比较直观简便的方法.如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关,若点散布在左上角到右下角的区域,则负相关.2.利用相关系数判定,当|r |越趋近于1,相关性越强. 当残差平方和越小,相关指数R 2越大,相关性越强. 【对点训练】1.在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据,并制作成如图所示的人体脂肪含量与年龄关系的散点图.根据该图,下列结论中正确的是( )A .人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%B .人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%C .人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%D .人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20%[答案] B[解析] 因为散点图呈现上升趋势,故人体脂肪含量与年龄正相关;因为中间两个数据大约介于15%到20%之间,故脂肪含量的中位数小于20%.2.四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648; ③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④ D .①④[答案] D[解析] 正相关指的是y 随x 的增大而增大,负相关指的是y 随x 的增大而减小,故不正确的为①④.3.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0C .12 D .1[答案] D[解析] 因为所有样本点都在直线y =12x +1上,所以这组样本数据完全正相关,故其相关系数为1.考点二、线性回归方程及应用【例2】某地随着经济的发展,居民收入逐年增长,下表是该地某银行连续五年的储蓄存款(年底余额),如下表1:年份x20132014201520162017储蓄存款y (千亿元)56 7 8 10为了研究计算的方便,工作人员将上表的数据进行了处理,t =x -2 012,z =y -5得到下表2:时间代号t1 2 3 4 5 z1235(1)求z 关于t 的线性回归方程;(2)通过(1)中的方程,求出y 关于x 的回归方程;(3)用所求回归方程预测到2020年年底,该地储蓄存款额可达多少?(附:对于线性回归方程y ^=b ^x +a ^,其中b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b ^x )[解析] (1)由已知,得t =3,z =2.2,∑i =15t i z i =45,∑i =15t 2i =55,b ^=45-5×3×2.255-5×9=1.2,a ^=z -b ^t =2.2-1.2×3=-1.4,∴z ^=1.2t -1.4.(2)将t =x -2 012,z =y -5,代入z ^=1.2t -1.4, 得y -5=1.2(x -2 012)-1.4,即y ^=1.2x -2 410.8. (3)∵y ^=1.2×2 020-2 410.8=13.2,∴预测到2020年年底,该地储蓄存款额可达13.2千亿元. 【类题通法】回归直线方程中系数的2种求法(1)公式法:利用公式,求出回归系数b ^,a ^.(2)待定系数法:利用回归直线过样本点中心(x ,y )求系数. 【对点训练】某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费x i和年销售量y i(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.x y w∑i=18(x i-x)2∑i=18(w i-w)2∑i=18(x i-x)(y i-y)∑i=18(w i-w)(y i-y) 46.6563 6.8289.8 1.6 1 469108.8表中w i=x i,w=18∑i=18w i.(1)根据散点图判断,y=a+bx与y=c+d x哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程.(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:①年宣传费x=49时,年销售量及年利润的预报值是多少?②年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),…,(u n,v n),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为β^=∑i=1nu i-u v i-v∑i=1nu i-u2,α^=v-β^u.[解析] (1)由散点图可以判断,y=c+d x适宜作为年销售量y关于年宣传费x的回归方程类型.(2)令w=x,先建立y关于w的线性回归方程.由于d^=∑i=18w i-w y i-y∑i=18w i-w2=108.81.6=68,c^=y-d^w=563-68×6.8=100.6,所以y关于w的线性回归方程y^=100.6+68w,因此y关于x的回归方程为y^=100.6+68x.(3)①由(2)知,当x=49时,年销售量y的预报值y^=100.6+6849=576.6,年利润z的预报值z^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z的预报值z^=0.2(100.6+68x)-x=-x+13.6x+20.12.所以当x=13.62=6.8,即x=46.24时,z^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.【例3】如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1~7分别对应年份2008~2014.(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.参考数据:∑7i=1y i=9.32,∑7i=1t i y i=40.17,∑7i=1y i-y2=0.55,7≈2.646.参考公式:相关系数r =∑ ni =1t i -ty i -y∑ ni =1t i -t2∑ni =1y i -y2,回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为b ^=∑ni =1t i -ty i -y∑ ni =1t i -t2,a ^=y --b ^t .[解析] (1)由折线图中的数据和附注中的参考数据得 t =4,∑ 7i =1(t i -t )2=28,∑7i =1y i -y2=0.55,∑7i =1(t i -t )(y i -y )=∑ 7i =1t i y i -t ∑7i =1y i =40.17-4×9.32=2.89, 所以r ≈ 2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当大,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1)得b ^=∑ 7i =1t i -t y i -y∑7i =1t i -t2=2.8928≈0.103. a ^=y -b ^t ≈1.331-0.103×4≈0.92.所以y 关于t 的回归方程为y ^=0.92+0.10t .将2016年对应的t =9代入回归方程得y ^=0.92+0.10×9=1.82. 所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨. 【类题通法】线性回归分析就是研究两组变量间线性相关关系的一种方法,通过对统计数据的分析,可以预测可能的结果,这就是线性回归方程的基本应用,因此利用最小二乘法求线性回归方程是关键,必须熟练掌握线性回归方程中两个重要估计量的计算. 【对点训练】为了监控某种零件的一条生产线的生产过程,检验员每隔30 min 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm ).下面是检验员在一天内依次抽取的16个零件的尺寸:抽取次序12345678零件尺寸 9.95 10.12 9.96 9.96 10.01 9.92 9.98 10.04 抽取次序910111213141516零件尺寸 10.26 9.91 10.13 10.02 9.22 10.04 10.05 9.95经计算得16119.9716i i x x ===∑,16162221111()(16)0.2121616i i i i s x x x x ===-=-≈∑∑,1621(8.5)18.439i i =-≈∑,161()(8.5) 2.78i i x x i =--=-∑,其中i x 为抽取的第i 个零件的尺寸,1,2,,16i =⋅⋅⋅.(1)求(,)i x i (1,2,,16)i =⋅⋅⋅的相关系数r ,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若||0.25r <,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).(2)一天内抽检零件中,如果出现了尺寸在(3,3)x s x s -+之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.(i)从这一天抽检的结果看,是否需对当天的生产过程进行检查?(ii)在(3,3)x s x s -+之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(,)i i x y (1,2,,)i n =⋅⋅⋅的相关系数12211()()()()niii n niii i x x y y r x x y y ===--=--∑∑∑,0.0080.09≈.[解析] (1)由样本数据得(,)(1,2,,16)i x i i =的相关系数为16116162211()(8.5)0.180.2121618.439()(8.5)ii ii i x x i r x x i ===--==≈-⨯⨯--∑∑∑.由于||0.25r <,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.(2)(i)由于9.97,0.212x s =≈,由样本数据可以看出抽取的第13个零件的尺寸在(3,3)x s x s -+以外,因此需对当天的生产过程进行检查.(ii)剔除离群值,即第13个数据,剩下数据的平均数为1(169.979.22)10.0215⨯-=,这条生产线当天生产的零件尺寸的均值的估计值为10.02.162221160.212169.971591.134ii x==⨯+⨯≈∑,剔除第13个数据,剩下数据的样本方差为221(1591.1349.221510.02)0.00815--⨯≈, 0.0080.09≈.考点三、独立性检验【例4】海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:箱产量<50 kg箱产量≥50 kg旧养殖法新养殖法(3)(精确到0.01).附:P(K2≥k0)0.0500.0100.001k0 3.841 6.63510.828K2=n2a+b c+d a+c b+d.[解析] (1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”.由题意知P(A)=P(BC)=P(B)P(C).旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62,故P(B)的估计值为0.62.新养殖法的箱产量不低于50 kg 的频率为 (0.068+0.046+0.010+0.008)×5=0.66, 故P (C )的估计值为0.66.因此,事件A 的概率估计值为0.62×0.66=0.409 2. (2)由(1)知可得列联表箱产量<50 kg箱产量≥50 kg旧养殖法 62 38 新养殖法3466由表中数据及K 2的计算公式得, K 2=200×62×66-34×382100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg 的直方图面积为(0.004+0.020+0.044)×5=0.34<0.5,箱产量低于55 kg 的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5, 故新养殖法箱产量的中位数的估计值为50+0.5-0.340.068≈52.35(kg). 【类题通法】解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:(1)根据样本数据制成2×2列联表; (2)根据公式K 2=n ad -bc 2a +ba +cb +dc +d计算K 2的观测值k ;(3)比较k 与临界值的大小关系,作统计推断. 【对点训练】为了了解某学校高二年级学生的物理成绩,从中抽取n 名学生的物理成绩(百分制)作为样本,按成绩分成5组:[50,60),[60,70),[70,80),[80,90),[90,100],频率分布直方图如图所示,成绩落在[70,80)中的人数为20.(1)求a 和n 的值;(2)根据样本估计总体的思想,估计该校高二学生物理成绩的平均数x -和中位数m ; (3)成绩在80分以上(含80分)为优秀,样本中成绩落在[50,80)中的男、女生人数比为1∶2,成绩落在[80,100)中的男、女生人数比为3∶2,完成2×2列联表,并判断能否在犯错误的概率不超过0.05的前提下认为物理成绩优秀与性别有关.男生女生合计优秀 不优秀 合计附:参考公式和数据:K 2=2a +bc +d a +cb +d, P (K 2≥k 0)0.500.05 0.025 0.005 k 00.4553.8415.0247.879[解析] (1), 解得a =0.05,则n =2010×0.05=40.(2)由频率分布直方图可知各组的频率分别为0.05,0.2,0.5,0.15,0.1, 所以x -=55×0.05+65×0.2+75×0.5+85×0.15+95×0.1=75.5, (m -70)×0.05=0.5-(0.05+0.2),得m =75.(3)由频率分布直方图可知成绩优秀的人数为40×(0.015+0.01)×10=10,则不优秀的人数为40-10=30.所以优秀的男生为6人,女生为4人; 不优秀的男生为10人,女生为20人. 所以2×2列联表如下:男生 女生 总计 优秀 6 4 10 不优秀 10 20 30 总计162440所以K 2=40×216×24×10×30≈2.222<3.841,所以在犯错误的概率不超0.05的前提下不能认为物理成绩优秀与性别有关.。
【2019版课标版】高考数学文科精品课件§11.6变量间的相关关系、统计案例.pdf
(3)已知这种产品的年利润 z 与 x,y 的关系为 z=0.2y-x. 根据 (2)的结果回答下列问题 : (i) 年宣传费 x=49 时, 年销售量及年利润的预报值是多少 ?
(ii) 年宣传费 x 为何值时 ,年利润的预报值最大 ?
附 :对于一组数据 (u 1,v1),(u 2,v2),…,(un,v n),其回归直线 v= α + β的u斜率和截距的最小二乘估计分别为
^
A. ??=0.4x+2.3
^
B. ?=?2x-2.4
^
C. ?=?-2x+9.5
^
D. ??=-0.3x+4.4
答案 A
6.(2014 课标 Ⅱ ,19,12 分)某地区 2007 年至 2013 年农村居民家庭人均纯收入 y(单位 :千元 )的数据如下表 :
பைடு நூலகம்
8.5
9.8
^^ ^
^
^
^
根据上表可得回归直线方程 ??=??x+??,其中 ??=0.76,??=??-???.
据此估计 ,该社区一户年收入为 15 万元家庭的年支出为 ( )
A.11.4 万元
B.11.8 万元
C.12.0 万元
D.12.2 万元
答案 B
3.(2014 湖北 ,4,5 分)根据如下样本数据
??=1
??=1
A.160 B.163
C.166 D.170 答案 C
2.(2015 福建 ,4,5 分)为了解某社区居民的家庭年收入与年支出的关系 ,随机调查了该社区 5 户家庭 ,得到如下统计数据表 :
收入 x(万元 ) 8.2
8.6
10.0
11.3 11.9
2019版高考数学(理)高分计划一轮:9.3 变量间的相关关系与统计案例
9.3 变量间的相关关系与统计案例[知识梳理]1.相关关系与回归方程 (1)相关关系的分类①正相关:从散点图上看,点散布在从左下角到右上角的区域内,如图1; ②负相关:从散点图上看,点散布在从左上角到右下角的区域内,如图2.(2)线性相关关系:从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(3)回归方程①最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法. ②回归方程:两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^=b ^x +a ^,则b ^=i =1n(x i -x )(y i -y )i =1n (x i -x )2=∑i =1nx i y i -n x y ∑i =1n x 2i -n x 2,a ^=y -b ^x .其中,b ^是回归方程的斜率,a ^是在y 轴上的截距,x -=1n ∑n i =1x i ,y -=1n ∑ni =1y i ,(x -,y -)称为样本点的中心.说明:回归直线y ^=b ^x +a ^必过样本点的中心(x -,y -),这个结论既是检验所求回归直线方程是否准确的依据,也是求参数的一个依据.(4)样本相关系数r =i =1n(x i -x )(y i -y )i =1n(x i -x )2i =1n(y i -y )2,用它来衡量两个变量间的线性相关关系.①当r>0时,表明两个变量正相关; ②当r<0时,表明两个变量负相关;③r 的绝对值越接近1,表明两个变量的线性相关性越强;r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r|>0.75时,认为两个变量有很强的线性相关关系.2.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为2×2列联表构造一个随机变量K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d 为样本容量.(3)独立性检验利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验. [诊断自测] 1.概念思辨(1)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示.( ) (2)通过回归方程y ^=b ^x +a ^可以估计和观测变量的取值和变化趋势.( ) (3)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越大.( )(4)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( )答案 (1)√ (2)√ (3)√ (4)× 2.教材衍化(1)(必修A3P 94A 组T 3)某种产品的广告费用支出x(单位:万元)与销售额y(单位:万元)之间有如下的对应数据:由最小二乘法得到线性回归直线方程y =b x +a ,则此直线一定经过点( ) A .(5,60) B .(5,50) C .(6,50) D .(8,70) 答案 B解析 回归直线样本点的中心为(x -,y -),而x -=15×(2+4+5+6+8)=5,y -=15×(30+40+60+50+70)=50,所以回归直线一定经过点(5,50).故选B.(2)(选修A1-2P 96T 2)通过随机询问72名不同性别的大学生在购买食物时是否看生产日期,得到如下列联表:则有答案 99.5%解析 由表中数据得k =72×(16×8-20×28)236×36×44×28≈8.416>7.879,所以可知有99.5%的把握认为性别与是否读生产日期有关.3.小题热身(1)设回归方程为y ^=3-5x ,则变量x 增加一个单位时 ( ) A .y 平均增加3个单位 B .y 平均减少5个单位 C .y 平均增加5个单位 D .y 平均减少3个单位 答案 B解析 因为-5是斜率的估计值,说明x 每增加一个单位,y 平均减少5个单位.故选B.(2)(2018·西安模拟)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y ^=0.67x +54.9.答案 68解析 由x -=30,得y -=0.67×30+54.9=75. 设表中的“模糊数字”为a ,则62+a +75+81+89=75×5,∴a =68.题型1 相关关系的判断典例1对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图①;对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图②,由这两个散点图可以判断( )A .变量x 与y 正相关,u 与v 正相关B .变量x 与y 正相关,u 与v 负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关散点分布向右上升为正相关,反之为负相关.答案 C解析 题图①的散点分布在斜率小于0的直线附近,y 随x 的增大而减小,故变量x 与y 负相关;题图②的散点分布在斜率大于0的直线附近,u 随v 的增大而增大,故变量u 与v 正相关,故选C.典例2 甲、乙、丙、丁四位同学各自对A ,B 两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r 与残差平方和m 如下表:A .甲B .乙C .丙D .丁考查r 的取值与1的关系.答案 D解析 在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A ,B 两个变量有更强的线性相关性,故选D.方法技巧判定两个变量正、负相关性的方法1.画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.见典例1.2.相关系数:r>0时,正相关;r<0时,负相关.3.线性回归直线方程中:b ^>0时,正相关;b ^<0时,负相关. 冲关针对训练下面是水稻产量与施化肥量的一组观测数据(单位:千克/亩):(2)你能从散点图中发现施化肥量与水稻产量近似成什么关系吗?水稻产量会一直随施化肥量的增加而增长吗?解 (1)散点图如下:(2)从图中可以发现施化肥量与水稻产量具有线性相关关系,当施化肥量由小到大变化时,水稻产量由小变大,图中的数据点大致分布在一条直线的附近,因此施化肥量和水稻产量近似成线性相关关系,但水稻产量只是在一定范围内随着化肥施用量的增加而增长.题型2 线性回归分析角度1 线性回归方程及应用典例(2014·全国卷Ⅱ)某地区2007年至2013年农村居民家庭人均纯收入y(单位:千元)的数据如下表:(1)求y关于t的线性回归方程;(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:b ^=i =1n(t i -t )(y i -y )i =1n (t i -t )2,a ^=y -b ^t .收集相关数据,代入公式.解 (1)由所给数据计算得t =17×(1+2+3+4+5+6+7)=4,y =17×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,i =17(t i -t )2=9+4+1+0+1+4+9=28,i =17(t i -t )(y i -y )=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,b ^=i =17(t i -t )(y i -y )i =17(t i -t )2=1428=0.5, a ^=y -b ^t =4.3-0.5×4=2.3, 所求回归方程为y ^=0.5t +2.3.(2)由(1)知,b ^=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.将2015年的年份代号t =9代入(1)中的回归方程, 得y ^=0.5×9+2.3=6.8,故预测该地区2015年农村居民家庭人均纯收入为6.8千元. 角度2 非线性回归模型的应用典例 (2015·全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中w i =x i ,w =18∑8i =1w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x.根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑ni =1(u i -u )(v i -v )∑ni =1(u i -u )2,α^=v -β^u .(1)散点图趋势是曲线,推断y =c +d x 适宜;(2)将非线性回归方程y =c +d x 用换元法w =x 转化为线性回归方程y =c +dw ,进而求解.解 (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程.由于d ^=∑8i =1(w i -w )(y i -y )∑8i =1 (w i -w )2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x 的回归方程为y ^=100.6+68x. (3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6, 年利润z 的预报值z ^=576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预报值z ^=0.2(100.6+68x)-x =-x +13.6x +20.12. 所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大. 方法技巧1.利用线性回归方程时的关注点(1)正确理解计算b ^,a ^的公式和准确的计算是求线性回归方程的关键. (2)回归直线方程y ^=b ^x +a ^必过样本点中心(x -,y -).(3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.见角度1典例.2.非线性回归方程的求法(1)根据原始数据(x ,y)作出散点图. (2)根据散点图选择恰当的拟合函数.(3)作恰当的变换,将其转化成线性函数,求线性回归方程.(4)在(3)的基础上通过相应变换,即可得非线性回归方程.见角度2典例. 冲关针对训练(2016·全国卷Ⅲ)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注:参考数据:∑7i =1y i =9.32,∑7i =1t i y i =40.17,∑7i =1(y i -y )2=0.55,7≈2.646.参考公式:相关系数r =∑ni =1 (t i -t )(y i -y )∑ni =1(t i -t )2∑ni =1(y i -y )2,回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为:b ^=∑ni =1 (t i -t )(y i -y )∑i =1(t i -t )2,a ^=y -b ^t . 解 (1)由折线图中数据和附注中参考数据得t =4,∑7i =1 (t i -t )2=28,∑7i =1(y i -y )2=0.55,∑7i =1(t i -t )(y i -y )=∑7i =1t i y i -t ∑7i =1y i =40.17-4×9.32=2.89,r ≈ 2.890.55×2×2.646≈0.99. 因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1)得b ^=∑7i =1(t i -t )(y i -y )∑7i =1(t i -t )2=2.8928≈0.103,a ^=y -b ^t ≈1.331-0.103×4≈0.92.所以,y 关于t 的回归方程为y ^=0.92+0.10t. 将2016年对应的t =9代入回归方程得 y ^=0.92+0.10×9=1.82.所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨. 题型3 独立性检验典例 (2018·广州测试)某企业生产的某种产品被检测出其中一项质量指标存在问题.该企业为了检查生产该产品的甲、乙两条流水线的生产情况,随机从这两条流水线上生产的大量产品中各抽取50件产品作为样本,测出它们的这一项质量指标值.若该项质量指标值落在(195,210]内,则为合格品,否则为不合格品.下表是甲流水线样本的频数分布表,下图是乙流水线样本的频率分布直方图.(1)根据上图,估计乙流水线产品的该项质量指标值的中位数;(2)若将频率视为概率,某个月内甲、乙两条流水线均生产了5000件产品,则甲、乙两条流水线分别生产出不合格品约多少件?(3)根据已知条件完成下面的2×2列联表,并回答能否有85%的把握认为“该企业生产的这种产品的该项质量指标值与甲、乙两条流水线的选择有关”?附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c +d).解 (1)设乙流水线产品的该项质量指标值的中位数为x ,因为0.48=(0.012+0.032+0.052)×5<0.5<(0.012+0.032+0.052+0.076)×5=0.86,所以(0.012+0.032+0.052)×5+0.076×(x -205)=0.5, 解得x =390019.(2)由甲、乙两条流水线各抽取50件产品可得,甲流水线生产的不合格品有15件,则甲流水线生产的产品为不合格品的概率为1550=310,乙流水线生产的产品为不合格品的概率为(0.012+0.028)×5=15.所以某个月内甲、乙两条流水线均生产了5000件产品,则甲、乙两条流水线生产的不合格品件数分别为5000×310=1500,5000×15=1000.(3)2×2列联表:则K2=50×50×75×25=3≈1.3,因为1.3<2.072,所以没有85%的把握认为“该企业生产的这种产品的该项质量指标值与甲、乙两条流水线的选择有关”.方法技巧独立性检验的一般步骤(1)根据样本数据列出2×2列联表;(2)计算随机变量K2的观测值k,查表确定临界值k0;(3)如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过P(K2≥k0);否则,就认为在犯错误的概率不超过P(K2≥k0)的前提下不能推断“X与Y有关系”.见典例.冲关针对训练(2017·洛阳模拟)某学生对其亲属30人的饮食习惯进行了一次调查,并用如图所示的茎叶图表示30人的饮食指数.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主.)(1)根据以上数据完成下列2×2列联表.(3)能否说有99%的亲属的饮食习惯与年龄有关?附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d.解 (1)2×2(2)因为K 2的观测值k =12×18×20×10=10>6.635,所以能在犯错误的概率不超过0.01的前提下认为其亲属的饮食习惯与年龄有关.(3)这种说法不正确.能在犯错误的概率不超过0.01的前提下认为其亲属的饮食习惯与年龄有关,是这个论断成立的可能性大小的结论,与是否有“99%的亲属的饮食习惯与年龄有关”无关.1.(2017·山东高考)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系.设其回归直线方程为y^=b ^x +a ^.已知∑i =110x i =225,∑i =110y i =1600,b ^=4.该班某学生的脚长为24,据此估计其身高为( )A .160B .163C .166D .170 答案 C解析 ∵∑i =110x i =225,∴x =110∑i =110x i =22.5.∵∑i =110y i =1600,∴y =110∑i =110y i =160. 又b ^=4,∴a ^=y -b ^x =160-4×22.5=70.∴回归直线方程为y ^=4x +70.将x =24代入上式得y ^=4×24+70=166. 故选C.2.(2015·福建高考)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y =b x +a ,其中b =0.76,a =y -b x .据此估计,该社区一户年收入为15万元家庭的年支出为( )A .11.4万元B .11.8万元C .12.0万元D .12.2万元 答案 B解析 由统计数据表可得x -=8.2+8.6+10.0+11.3+11.95=10.0,y -=6.2+7.5+8.0+8.5+9.85=8.0,则a ^=8.0-0.76×10.0=0.4,所以回归直线方程为y ^=0.76x+0.4,当x =15时,y ^=0.76×15+0.4=11.8,故估计年收入为15万元家庭的年支出为11.8万元.故选B. 3.(2018·江西南城一中、高安中学联考)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.由K 2=(a +b )(c +d )(a +c )(b +d ),得K 2=100×(45×22-20×13)265×35×58×42≈9.616.参照下表,A.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C.有99%以上的把握认为“生育意愿与城市级别有关”D.有99%以上的把握认为“生育意愿与城市级别无关”答案 C解析K2≈9.616>6.635,∴有99%以上的把握认为“生育意愿与城市级别有关”,故选C.4.(2018·广东广州检测)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )A .成绩B .视力C .智商D .阅读量 答案 D解析 K 2=52×(6×22-10×14)216×36×20×32,令5216×36×20×32=m ,则K 21=82m ,同理,K 22=m ×(4×20-12×16)2=1122m ,K 23=m ×(8×24-8×12)2=962m ,K 24=m ×(14×30-6×2)2=4082m ,∴K 24>K 22>K 23>K 21,则与性别有关联的可能性最大的变量是阅读量,故选D.[重点保分两级优选练]A 级一、选择题1.四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648;③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④ D .①④ 答案 D解析 由回归直线方程y ^=b ^x +a ^,知当b ^>0时,y 与x 正相关;当b ^<0时,y 与x 负相关.∴①④一定错误.故选D.2.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3 答案 A解析 易知题中图(1)与图(3)是正相关,图(2)与图(4)是负相关,且图(1)与图(2)中的样本点集中分布在一条直线附近,则r 2<r 4<0<r 3<r 1.故选A.3.(2018·辽宁沈阳二中一模)某考察团对全国10大城市居民人均工资水平x(千元)与居民人均消费水平y(千元)进行统计调查,y 与x 具有相关关系,回归方程为y ^=0.66x +1.562,若某城市居民人均消费水平为7.675(千元),估计该城市人均消费额占人均工资收入的百分比约为( )A .83%B .72%C .67%D .66%答案 A解析 由7.675=0.66x +1.562,得x ≈9.262, 所以7.6759.262×100%≈83%.故选A.4.下表提供了某厂节能降耗技术改造后在生产A 产品过程中记录的产量x(吨)与相应的生产能耗y(吨)的几组对应数据:根据上表提供的数据,求出y 关于x 的线性回归方程为y =0.7x +0.35,那么表中t 的精确值为 ( ) A .3 B .3.15 C .3.5 D .4.5 答案 A解析 ∵x -=3+4+5+64=4.5,代入y ^=0.7x +0.35,得y ^=3.5,∴t =3.5×4-(2.5+4+4.5)=3.故选A.5.(2018·长春检测)已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能是( )A.y ^=0.4x +2.3B.y ^=2x -2.4 C.y ^=-2x +9.5 D.y ^=-0.3x +4.4 答案 A解析 由变量x 与y 正相关知C 、D 均错误,又回归直线经过样本点的中心(3,3.5),代入验证得A 正确,B 错误.故选A.6.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x -,y -)C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg 答案 D解析 D 选项中,若该大学某女生身高为170 cm ,根据回归方程只能近似认为其体重为58.79 kg ,但不是绝对的.故D 不正确.故选D.7.(2018·湖南邵阳调研)假设有两个分类变量X 和Y 的2×2列联表如下:A .a =45,c =15B .a =40,c =20C .a =35,c =25D .a =30,c =30 答案 A解析 根据2×2列联表与独立性检验可知, 当a a +10与c c +30相差越大时,X 与Y 有关系的可能性越大, 即a 、c 相差越大,a a +10与cc +30相差越大,故选A.8.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:由表中数据,求得线性回归方程为y =-4x +a.若在这些样本点中任取一点,则它在回归直线左下方的概率为( )A.16B.13C.12D.23 答案 B解析 由题意可知x -=4+5+6+7+8+96=132,y -=90+84+83+80+75+686=80.又点⎝ ⎛⎭⎪⎫132,80在直线y ^=-4x +a 上,故a =106. 所以回归方程为y =-4x +106.由线性规划知识可知,点(5,84),(9,68)在直线y =-4x +106的左下方.故所求事件的概率P =26=13.故选B.9.(2018·安徽皖南一模)下列说法错误的是( ) A .回归直线过样本点的中心(x -,y -)B .两个随机变量的线性相关性越强,则相关系数的绝对值就越接近1C .在回归直线方程y ^=0.2x +0.8中,当解释变量x 每增加1个单位时,预报变量y ^平均增加0.2个单位D .对分类变量X 与Y ,随机变量K 2的观测值k 越大,则判断“X 与Y 有关系”的把握程度越小 答案 D解析 回归直线过样本点的中心(x -,y -),A 正确;两个随机变量相关性越强,则相关系数的绝对值越接近1,B 正确;在线性回归方程y ^=0.2x +0.8中,当解释变量x 每增加1个单位时,预报量平均增加0.2个单位,C 正确;对分类变量X 与Y 的随机变量K 2的观测值k 来说,k 越大,“X 与Y 有关系”的把握程度越大,因此D 不正确.故选D.10.已知x 与y 之间的几组数据如下表:假设根据上表数据所得线性回归直线方程为y =b x +a .若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( )A.b ^>b ′,a ^>a ′B.b ^>b ′,a ^<a ′ C.b ^<b ′,a ^>a ′ D.b ^<b ′,a ^<a ′ 答案 C解析 x =216=72,y =136,代入公式求得b ^=58-6×72×13691-6×⎝ ⎛⎭⎪⎫722=57,a ^=y -b ^x =136-57×72=-13,而b ′=2,a ′=-2,∴b ^<b ′,a ^>a ′,故选C.二、填空题11.x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.①x ,y 是负相关关系;②在该相关关系中,若用y =c 1ec2x 拟合时的相关指数为R 21,用y ^=b ^x +a ^拟合时的相关指数为R 22,则R 21>R 22;③x ,y 之间不能建立线性回归方程. 答案 ①②解析 在散点图中,点散布在从左上角到右下角的区域,因此x ,y 是负相关关系,故①正确;由散点图知用y =c 1ec2x 拟合比用y ^=b ^x +a ^拟合效果要好,则R 21>R 22,故②正确;x ,y 之间可以建立线性回归方程,但拟合效果不好,故③错误.12.(2017·赣州模拟)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x 6,y 6)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,6)都在曲线y =bx 2-13附近波动.经计算∑6i =1x i =11,∑6i =1y i =13,∑6i =1x 2i =21,则实数b的值为________.答案 57解析 令t =x 2,则曲线的回归方程变为线性的回归方程,即y =bt -13,此时t =∑6i =1x 2i 6=72,y =∑6i =1y i6=136,代入y =bt -13,得136=b ×72-13,解得b =57. 13.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未用血清的人一年中的感冒记录作比较,提出假设H 0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K 2≈3.918,经查对临界值表知P(K 2≥3.841)≈0.05.对此,四名同学作出了以下的判断:p :有95%的把握认为“这种血清能起到预防感冒的作用”; q :若某人未使用该血清,则他在一年中有95%的可能性得感冒;r :这种血清预防感冒的有效率为95%; s :这种血清预防感冒的有效率为5%.则下列结论中,正确结论的序号是________.(把你认为正确的命题的序号都填上) ①p ∧(綈q);②(綈p)∧q ;③(綈p ∧綈q)∧(r ∨s); ④(p ∨綈r)∧(綈q ∨s). 答案 ①④解析 由题意,得K 2≈3.918,P(K 2≥3.841)≈0.05,所以,只有第一位同学的判断正确,即有95%的把握认为“这种血清能起到预防感冒的作用”.所以p 真,q 假,r 假,s 假.由真值表知①④为真命题.14.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下的列联表:已知在全部105人中随机抽取1人,成绩优秀的概率为7,则下列说法正确的是________.①列联表中c 的值为30,b 的值为35; ②列联表中c 的值为15,b 的值为50;③根据列联表中的数据,若在犯错误的概率不超过0.025的前提下,能认为“成绩与班级有关系”; ④根据列联表中的数据,若在犯错误的概率不超过0.025的前提下,不能认为“成绩与班级有关系”. 答案 ③解析 由题意知,成绩优秀的学生数是30, 成绩非优秀的学生数是75,所以c =20,b =45, ①②错误;根据列联表中的数据,得到 K 2=105×(10×30-20×45)255×50×30×75≈6.1>5.024,因此在犯错误的概率不超过0.025的前提下认为“成绩与班级有关系”.故③正确,④错误.B 级三、解答题15.(2018·湖南百所重点中学诊断)已知某企业近3年的前7个月的月利润(单位:百万元)如下面的折线图所示:(1)试问这3年的前7个月中哪个月的月平均利润较高? (2)通过计算判断这3年的前7个月的总利润的发展趋势;(3)试以第3年的前4个月的数据(如下表),用线性回归的拟合模式估计第3年8月份的利润.相关公式:b=a ^=y --b ^x -.解 (1)由折线图可知5月和6月的平均利润最高.(2)第1年前7个月的总利润为1+2+3+5+6+7+4=28(百万元), 第2年前7个月的总利润为2+5+5+4+5+5+5=31(百万元), 第3年前7个月的总利润为4+4+6+6+7+6+8=41(百万元), 所以这3年的前7个月的总利润呈上升趋势.∴b ^=54-4×2.5×530-4×2.52=0.8,∴a ^=5-2.5×0.8=3,∴y ^=0.8x +3,当x =8时,y ^=0.8×8+3=9.4.∴估计第3年8月份的利润为9.4百万元.16.(2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:旧养殖法新养殖法(1)设两种养殖方法的箱产量相互独立,记A 表示事件“旧养殖法的箱产量低于50 kg ,新养殖法的箱产量不低于50 kg ”,估计A 的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解 (1)记B 表示事件“旧养殖法的箱产量低于50 kg ”,C 表示事件“新养殖法的箱产量不低于50 kg ”. 由题意知P(A)=P(BC)=P(B)P(C). 旧养殖法的箱产量低于50 kg 的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62, 故P(B)的估计值为0.62.新养殖法的箱产量不低于50 kg 的频率为 (0.068+0.046+0.010+0.008)×5=0.66, 故P(C)的估计值为0.66.因此,事件A 的概率估计值为0.62×0.66=0.4092. (2)根据箱产量的频率分布直方图得列联表K 2=200×(100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg 的直方图面积为(0.004+0.020+0.044)×5=0.34<0.5, 箱产量低于55 kg 的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5, 故新养殖法产量的中位数的估计值为 50+0.5-0.340.068≈52.35(kg).。
2019-2020年高考数学一轮复习第十章算法初步统计统计案例第67讲变量间的相关关系与统计案例课件理
A.3.25
y 2.2 4.3 4.8 6.7 B.2.6
C.2.2
D.0
解析:由已知得 x =2,-y =4.5,因为回归方程经过点( x ,-y ),所以 a=4.5- 0.95×2=2.6.
4.若回归直线方程为y^=2-1.5x,则变量 x 增加一个单位,y( C )
A.平均增加 1.5 个单位
• B.从独立性检验可知,有99%的把握认为吸烟与患肺病有关时,我们说 某人吸烟,那么他有99%的可能患有肺病
• C.若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有 5%的可能性使得推断出现错误
• D.以上三种说法都不正确
• 解析:根据独立性检验的思想知C项正确.
•一 相关关系的判断
•二 线性回归分析
(1)正确理解计算b^ ,a^ 的公式并能准确的计算出结果是求线性回归方程的关键. (2)回归直线方程y^=b^x+a^必过样本点中心( x , y ). (3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量 之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.
2.有关统计内容及方 法主要以选择题、填 空题的形式呈现,属 容易题;抽样方法和 各种统计图表与概率 的有关内容相结合或 与统计案例相结合也 会出现在解答题中, 属中档题.
栏目导 航
板块一 板块二 板块三 板块四
• 1.相关关系与回归方程
• •
(①1)正相相关关关:系从的散分点类图上看,点散布在从___左___下__角__到___右___上___角_的区域内.
n
ui- u vi- v
i=1
率和截距的最小二乘估计分别为β^=
,α^= v -β^ u .
近年高考数学一轮复习第十章算法初步课时达标66变量间的相关关系与统计案例(2021年整理)
2019版高考数学一轮复习第十章算法初步课时达标66 变量间的相关关系与统计案例编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(2019版高考数学一轮复习第十章算法初步课时达标66 变量间的相关关系与统计案例)的内容能够给您的工作和学习带来便利。
同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。
本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为2019版高考数学一轮复习第十章算法初步课时达标66 变量间的相关关系与统计案例的全部内容。
第66讲变量间的相关关系与统计案例[解密考纲]本节内容在高考中,三种题型均有考查,文字量比较大,但题目较容易.一、选择题1.为了了解某保温产品的用电量y(kW·h)与气温(℃)之间的关系,随机统计了4次用电量与相应的气温,并制作了对照表。
由表中数据,错误!错误!错误!∈R),由此请估计出用电量72 kW·h时气温的度数为( D)A.-10 B.-8C.-4 D.-6解析由题意可得错误!=10,错误!=40,所以错误!=错误!+2错误!=40+2×10=60。
所以错误!=-2x+60,当错误!=72时,有-2x+60=72,解得x =-6,故选D.2.对具有线性相关关系的变量x,y有一组观测数据(x i,y i)(i=1,2,…,8)其回归直线方程是错误!=错误!x+错误!,且x1+x2+x3+…+x8=2(y1+y2+y3+…+y8)=6,则实数错误!的值是(B)A.错误!B.错误!C.错误!D.错误!解析依题意可知样本中心点为错误!,则错误!=错误!×错误!+错误!,解得错误!=错误!,故选B.3.在一组样本数据(x1,y1),(x2,y2),…,(x n,y n)(n≥2,x1,x2,…,x n 不全相等)的散点图中,若所有样本点(x i,y i)(i=1,2,…,n)都在直线y=错误!x+1上,则这组样本数据的样本相关系数为( D)A.-1 B.0C.错误!D.1解析由题设可知这组样本中的数据完全正相关,又都在y=错误!x+1上,故相关系数为1,故选D.4.(2018·辽宁大连双基测试)对于下列表格所示五个散点,已知求得的线性回归方程为错误!=0。
高中数学复习第十章 统计、统计案例及算法初步
提 升 学 科 素 养
突 破 热 点 题 型
演 练 知 能 检 测
数学(6省专版)
第一节
随机抽样 系统抽样
回 扣 主 干 知 识
[例2]
(2012· 山东高考)采用系统抽样方法从960人中
抽取32人做问卷调查,为此将他们随机编号为1,2,…,
提 升 学 科 素 养
960,分组后在第一组采用简单随机抽样的方法抽到的号码
答案:D
数学(6省专版)
第一节
随机抽样
回 扣 主 干 知 识
2.(2013· 温州模拟)某工厂生产A、B、C三种不同型号的 产品,产品数量之比为3∶4∶7,现在用分层抽样的 方法抽出容量为n的样本,样本中A型号产品有15件,
提 升 学 科 素 养
那么样本容量n为
突 破 热 点 题 型
(
B.60 D.80
提 升 学 科 素 养
突 破 热 点 题 型
200 解析: 总人数为 0.2 =1 000, 该单位青年职员的人数为 1 10 000×25=400.
答案:400
演 练 知 能 检 测
数学(6省专版)
第一节
随机抽样
回 扣 主 干 知 识
5.(2012· 湖北高考)一支田径运动队有男运动员 56 人,女运 动员 42 人.现用分层抽样的方法抽取若干人,若抽取的 男运动员有 8 人,则抽取的女运动员有________人.
突 破 热 点 题 型
(2)在使用随机数表时,如遇到三位数或四位数时,
可从选择的随机数表中的某行某列的数字计起,每三个 或四个作为一个单位,自左向右选取,有超过总体号码 或出现重复号码的数字舍去.
—————————————————————————
2019届高考数学一轮复习第10单元算法初步、统计、统计案例第66讲变量间的相关关系、统计案例课件理
������ =1
∑ (������ ������ -t) ∑ (������ ������ -y)2
������ =1
为:b=������ =1 ������
∑ (������ ������ -t)(������ ������ -y)
������ =1
∑ (������ ������ -t)2
,a=y-bt.
教学参考
解:(1)记 B 表示事件“旧养殖法的箱产量低于 50 kg”,C 表示事件“新养殖法的箱产量不低于 50 kg”. 由题意知 P(A)=P(BC)=P(B)P(C). 旧养殖法的箱产量低于 50 kg 的频率为 (0.012+0.014+0.024+0.034+0.040)×5=0.62, 故 P(B)的估计值为 0.62. 新养殖法的箱产量不低于 50 kg 的频率为 (0.068+0.046+0.010+0.008)×5=0.66, 故 P(C)的估计值为 0.66. 因此,事件 A 的概率估计值为 0.62×0.66=0.409 2.
教学参考
(2)根据箱产量的频率分布直方图得列联表:
箱产量<50 kg 旧养殖法 新养殖法
2 200 × (62 × 66-34 × 38) 2 K= ≈15.705. 100× 100× 96× 104
箱产量≥50 kg 38 66
62 34
由于 15.705>6.635,故有 99%的把握认为箱产量与养殖方法有关. (3)因为新养殖法的箱产量频率分布直方图中,箱产量低于 50 kg 的直方图面积为 (0.004+0.020+0.044)×5=0.34<0.5, 箱产量低于 55 kg 的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5, 故新养殖法箱产量的中位数的估计值为
适用于老高考旧教材2024版高考数学一轮总复习第10章算法初步统计与统计案例第4节变量间的相关关系统
参考公式:对于一组具有线性相关关系的数据(xi,yi)(i=1,2,3,…,n),其回归直
^
^
^
^
∑ ( -)( -)
线 = x+的斜率和截距的最小二乘估计分别为 = =1
2
∑ ( -)
=1
∑ -
=1
∑ 2 -
ห้องสมุดไป่ตู้1
2
^
^
对于回归方程y = bx+a,当b>0 时,正相关;当b<0 时,负相关
对点训练 1(1)相关变量 x,y 的散点图如图所示,现对这两个变量进行线性相
^
^
^
关分析,方案一:根据图中所有数据,得到线性回归方程 = b1 x+1 ,相关系数
^
^
^
为 r1;方案二:剔除点(10,21),根据剩下数据得到线性回归方程 = 2 x+2 ,相
(4)通过求 Q= ∑ (yi-bxi-a)2 的最小值而得到回归直线的方法,即使得样本数据
=1
的点到回归直线的距离的平方和最小的方法叫做最小二乘法.
∑ ( -)( -)
(5)相关系数 r=
=1
∑ ( -) ∑ ( -)2
=1
2
.
=1
当r>0时,表明两个变量正相关;
类变量.
(2)2×2列联表:假设有两个分类变量X和Y,它们的值域分别为{x1,x2}和
{y1,y2},其样本频数列联表(称2×2列联表)为:
X
x1
x2
总计
Y
y1
a
c
a+c
高考数学一轮复习第十章算法初步统计统计案例专题提能概率统计中的数学建模与数据分析课件
(1)从游客中随机抽取3人,记这3人的总得分为随机变量X,求X的分布列 与数学期望; (2)(ⅰ)若从游客中随机抽取m(m∈N+)人,记这m人的总分恰为m分的概 率为Am,求数列{Am}的前10项和; (ⅱ)在对所有游客进行随机问卷调查的过程中,记已调查过的人的累计 得分恰为n分的概率为Bn,探讨Bn与Bn-1(n≥2)之间的关系,并求数列{Bn} 的通项公式.
破解此题的关键:一是认真审题,判断随机变量的所有可能取值,并 注意相互独立事件的概率与互斥事件的概率的区别,求出随机变量取 各个值时的概率,从而列出随机变量的分布列;二是将概率的参数表 达式与数列的递推式相结合,可得数列的通项公式,此种解法新颖独 特.
(二)函数与期望相交汇应用 [例2] (2021·重庆一中模拟)某蛋糕店制作并销售一款蛋糕,制作一个蛋 糕成本3元,且以8元的价格出售,若当天卖不完,剩下的无偿捐献给饲 料加工厂.根据以往100天的资料统计,得到如下需求量表.该蛋糕店一天 制作了这款蛋糕X(X∈N)个,以x(单位:个,100≤x≤150,x∈N)表示当 天的市场需求量,T(单位:元)表示当天出售这款蛋糕获得的利润.
(一)概率与数列交汇问题 [例 1] (2021·湖北武汉质量监测)武汉又称江城,是湖北省省会,它不仅 有着深厚的历史积淀与丰富的民俗文化,更有着众多名胜古迹与旅游景 点,黄鹤楼与东湖便是其中的两个.为合理配置旅游资源,现对已参观黄 鹤楼景点的游客进行随机问卷调查,若不游玩东湖记 1 分,若继续游玩 东湖记 2 分,每位游客选择是否参观东湖的概率均为12,游客之间选择意 愿相互独立.
[解析] (1)X 的所有可能取值为 3,4,5,6.
P(X=3)=123=18,P(X=4)=C23123=38,P(X=5)=C23123=38,P(X=6)= 123=18. 所以 X 的分布列为
2019版数学一轮高中全程复习方略课件:第十章 算法初
(3)独立性检验 利用随机变量 K2 来判断“两个分类变量有关系”的方法称 为独立性检验.
二、必明 4●个易误点 1.回归分析是对具有相关关系的两个变量进行统计分析的 方法,只有在散点图大致呈线性时,求出的回归直线方程才有实 际意义,否则,求出的回归直线方程毫无意义. 2.根据回归方程进行预报,仅是一个预报值,而不是真实 发生的值. 3.r 的大小只说明是否相关,并不能说明拟合效果的好坏, R2 才是判断拟合效果好坏的依据,必须将二者区分开来. 4.独立性检验的随机变量 K2=2.706 是判断是否有关系的 临界值,K2<2.706 应判断为没有充分依据显示 X 与 Y 有关系, 而不能作为小于 90%的量化值来作出判断.
2.回归方程 (1)最小二乘法 求回归直线, 使得样本数据的点到它的距离的平方和最小的 方法叫做最小二乘法. (2)回归方程 ^ =b ^ x+^ 方程 y a 是两个具有线性相关关系的变量的一组数据 ^是待定参 (x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中^ a,b 数. i∑ ∑ =1 xi- x yi- y i=1xiyi-n x y ^= b = n 2 n 2 2 , ∑ ∑ i= 1 x i- x i=1xi -n x ^ ^x. a = y -b
n n
3.回归分析 (1)定义:对具有相关关系的两个变量进行统计分析的一种常用方 法. (2)样本点的中心 对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn) 中②( x , y )称为样本点的中心. (3)相关系数 当 r>0 时,表明两个变量③正相关; 当 r<0 时,表明两个变量④负相关. r 的绝对值越接近于 1,表明两个变量的线性相关性⑤越强. r 的绝对值越接近于 0, 表明两个变量之间几乎不存在线性相关关 系.通常|r|大于⑥0.75 时,认为两个变量有很强的线性相关性.
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
课时作业 58 变量间的相关关系与统计案例一、选择题1.(2018·石家庄模拟(一))下列说法错误的是( ) A .回归直线过样本点的中心(x -,y -)B .两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于1C .对分类变量X 与Y ,随机变量K 2的观测值k 越大,则判断“X 与Y 有关系”的把握程度越小D .在回归直线方程x ^=0.2x +0.8中,当解释变量x 每增加1个单位时,预报变量y ^平均增加0.2个单位解析:本题考查命题真假的判断.根据相关定义分析知A ,B ,D 正确;C 中对分类变量X 与Y 的随机变量K 2的观测值k 来说,k 越大,判断“X 与Y 有关系”的把握程度越大,故C 错误,故选C.答案:C2.为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:收入x (万元) 8.2 8.6 10.0 11.3 11.9 支出y (万元)6.27.58.08.59.8根据上表可得回归直线方程y ^=b ^x +a ^,其中b ^=0.76,a ^=y --b ^x -.据此估计,该社区一户年收入为15万元家庭的年支出为( )A .11.4万元B .11.8万元C .12.0万元D .12.2万元解析:∵x -=10.0,y -=8.0,b ^=0.76,∴a ^=8-0.76×10=0.4,∴回归方程为y ^=0.76x +0.4,把x =15代入上式得,y ^=0.76×15+0.4=11.8(万元).答案:B3.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:男 女 合计 爱好 40 20 60 不爱好 20 30 50 合计6050 110由K 2=n ad -bc 2a +bc +d a +cb +d,算得K 2=110×40×30-20×20260×50×60×50≈7.8.附表P (K 2≥k 0)0.050 0.010 0.001 k 03.8416.63510.828参照附表,得到的正确结论是( )A .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C .有99%以上的把握认为“爱好该项运动与性别有关”D .有99%以上的把握认为“爱好该项运动与性别无关”解析:根据独立性检验的定义,由K 2≈7.8>6.635,可知我们在犯错误的概率不超过0.01的前提下,即有99%以上的把握认为“爱好该项运动与性别有关”,故选C.答案:C4.(2017·山东卷)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系.设其回归直线方程为y ^=b ^x +a ^.已知∑i =110x i =225,∑i =110y i =1 600,b ^=4.该班某学生的脚长为24,据此估计其身高为( )A .160B .163C .166D .170解析:∵ ∑i =110x i =225,∴ x =110∑i =110x i =22.5.∵ ∑i =110y i =1 600,∴ y =110∑i =110y i =160.又b ^=4,∴ a ^=y -b ^x =160-4×22.5=70. ∴ 回归直线方程为y ^=4x +70.将x =24代入上式得y ^=4×24+70=166. 故选C. 答案:C5.(2018·河南安阳二模)已知变量x 与y 的取值如下表所示,且2.5<n <m <6.5,则由该数据算得的线性回归方程可能是( )x 2 3 4 5 y6.5m n2.5A.y ^=0.8x +2.3B.y ^=2x +0.4 C.y ^=-1.5x +8 D.y ^=-1.6x +10解析:由2.5<n <m <6.5,可得为负相关,排除A ,B ,由题意,知x -=3.5,y -=14×(6.5+m +n +2.5)∈(3.5,5.5),分别代入选项C ,D ,可得D 满足.故选D. 答案:D6.(2018·陕西汉中一模)已知两个随机变量x ,y 之间的相关关系如下表所示:x -4 -2 1 2 4 y-5-3-1-0.51根据上述数据得到的回归方程为y ^=b ^x +a ^,则大致可以判断( ) A.a ^>0,b ^>0 B.a ^>0,b ^<0 C.a ^<0,b ^>0 D.a ^<0,b ^<0解析:由题意知x -=0.2,y -=-1.7, ∴b ^=28-5×0.2×-1.741-5×0.22=29.740.8≈0.73>0, ∴a ^=-1.7-0.73×0.2≈-1.85<0,故选C. 答案:C 二、填空题7.某炼钢厂废品率x (%)与成本y (元/t )的线性回归方程为y ^=105.492+42.569x .当成本控制在176.5元/t 时,可以预计生产的1 000t 钢中,约有________t 钢是废品.解析:因为176.5=105.492+42.569x ,所以x ≈1.668,即成本控制在176.5元/t 时,废品率为1.668%.所以生产的1 000 t 钢中,约有1 000×1.668%=16.68 t 钢是废品. 答案:16.688.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H 0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K 2≈3.918,经查临界值表知P (K 2≥3.841)≈0.05.则下列结论中,正确结论的序号是________.①有95%的把握认为“这种血清能起到预防感冒的作用”; ②若某人未使用该血清,那么他在一年中有95%的可能性得感冒; ③这种血清预防感冒的有效率为95%; ④这种血清预防感冒的有效率为5%.解析:K 2≈3.918≥3.841,而P (K 2≥3.814)≈0.05,所以有95%的把握认为“这种血清能起到预防感冒的作用”.要注意我们检验的是假设是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆.答案:①9.(2018·青岛检测)已知变量x ,y 具有线性相关关系,它们之间的一组数据如下表所示,若y 关于x 的线性回归方程为y ^=1.3x -1,则m =________.x 1 2 3 4 y0.11.8m4解析:本题考查线性回归方程.由题意得x -=14(1+2+3+4)=2.5,代入线性回归方程得y -=1.3×2.5-1=2.25,所以2.25=14(0.1+1.8+m +4),解得m =3.1.答案:3.1 三、解答题10.(2018·合肥检测(二))某校计划面向高一年级1 200名学生开设校本选修课程,为确保工作的顺利实施,先按性别进行分层抽样,抽取了180名学生对社会科学类、自然科学类这两大类校本选修课程进行选课意向调查,其中男生有105人.在这180名学生中选择社会科学类的男生、女生均为45人.(1)分别计算抽取的样本中男生、女生选择社会科学类的频率,并以统计的频率作为概率,估计实际选课中选择社会科学类的学生人数;(2)依据抽取的180名学生的调查结果,完成以下2×2列联表.并判断能否在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关?选择自然科学类选择社会科学类合计 男生 女生 合计附:K 2=n ad -bc 2a +bc +d a +cb +d,其中n =a +b +c +d .P (K 2≥k 0)0.500 0.400 0.250 0.150 0.100 0.050 0.025 0.010 0.005 0.001k 0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.87910.828解析:(1)由条件知,抽取的男生有105人,女生有180-105=75(人).男生选择社会科学类的频率为45105=37,女生选择社会科学类的频率为4575=35.由题意,男生总数为1 200×105180=700(人),女生总数为1 200×75180=500(人),所以估计选择社会科学类的人数为 700×37+500×35=600(人).(2)根据统计数据,可得列联表如下:选择自然科学类选择社会科学类合计 男生 60 45 105 女生 30 45 75 合计9090180则K 2=180×60×45-30×452105×75×90×90=367≈5.142 9>5.024, 所以在犯错误的概率不超过0.025的前提下能认为科类的选择与性别有关.11.(2018·四川四市一模)张三同学从7岁起到13岁每年生日时对自己的身高测量后记录如下表:年龄x (岁) 7 8 9 10 11 12 13 身高y (cm)121128135141148154160(1)求身高y 关于年龄x 的线性回归方程;(2)利用(1)中的线性回归方程,分析张三同学7岁至13岁身高的变化情况,如17岁之前都符合这一变化,请预测张三同学15岁时的身高.附:回归直线的斜率和截距的最小二乘法估计公式分别为:b ^=∑ni =1 x i -xy i -y∑ni =1x i -x2,a ^=y -b ^x .解析:(1)由题意得x -=17(7+8+9+10+11+12+13)=10.y -=17(121+128+135+141+148+154+160)=141,∑7i =1(x i -x -)2=9+4+1+0+1+4+9=28,∑7i =1(x i -x -)(y i -y -)=(-3)×(-20)+(-2)×(-13)+(-1)×(-6)+0×0+1×7+2×13+3×19=182,所以b ^=∑7i =1x i -xy i -y∑7i =1x i -x2=18228=132,a ^=y -b ^x =141-132×10=76,所求回归方程为y ^=132x +76..(2)由(1)知,b ^=132>0,故张三同学7岁至13岁的身高每年都在增高,平均每年增高6.5 cm.将x =15代入(1)中的回归方程,得y ^=132×15+76=173.5,故预测张三同学15岁的身高为173.5 cm.[能力挑战]12.(2017·新课标全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:旧养殖法新养殖法(1)记A 表示事件“旧养殖法的箱产量低于50 kg”,估计A 的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;箱产量<50 kg箱产量≥50 kg旧养殖法 新养殖法(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较. 附:K 2=n ad -bc 2a +bc +d a +cb +d.解析:(1)旧养殖法的箱产量低于50 kg 的频率为 (0.012+0.014+0.024+0.034+0.040)×5=0.62. 因此,事件A 的概率估计值为0.62. (2)根据箱产量的频率分布直方图得列联表箱产量<50 kg箱产量≥50 kg旧养殖法 62 38 新养殖法3466K 2的观测值=200×62×66-34×382100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg 到55 kg 之间,旧养殖法的箱产量平均值(或中位数)在45 kg 到50 kg 之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.。