高考知识点变量间的相关关系与统计案例
数学(理)一轮复习 第十章 统计与统计案例 第讲 变量间的相关关系、统计案例
第3讲变量间的相关关系、统计案例)1.变量间的相关关系常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.(3)回归方程为错误!=错误!x+错误!,其中错误!=错误!,错误!=错误!-错误!错误!.(4)相关系数当r〉0时,表明两个变量正相关;当r<0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r|大于0.75时,认为两个变量有很强的线性相关性.3.独立性检验(1)2×2列联表:假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称2×2列联表)为:y1y2总计x1a b a+b x2c d c+d总计a+cb+d a+b+c+d(2)K2统计量K2=错误!(其中n=a+b+c+d为样本容量).1.辨明三个易误点(1)回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过(x,y)点,可能所有的样本数据点都不在直线上.(2)利用回归方程分析问题时,所得的数据易误认为准确值,而实质上是预测值(期望值).(3)虽然任何一组不完全相同的数据都可以求出回归直线方程,但只有具有线性相关关系的一组数据才能得到有意义的回归直线方程,求出的方程才具有实际价值.2.求回归方程的方法求解回归方程的关键是确定回归系数错误!,错误!,因求解错误!的公式计算量太大,一般题目中给出相关的量,如x,错误!,错误!x错误!,错误! x i y i等,便可直接代入求解.充分利用回归直线过样本中心点(错误!,错误!),即有错误!=错误!错误!+错误!,可确定错误!.1.有关线性回归的说法,不正确的是()A.具有相关关系的两个变量是非确定性关系B.散点图能直观地反映数据的相关程度C.回归直线最能代表线性相关的两个变量之间的关系D.散点图中的点越集中,两个变量的线性相关性越强D2.某商品销售量y(件)与销售价格x(元/件)负相关,则其回归直线方程可能是()A。
第3讲 变量间的相关关系与统计案例
K
2
a b a c c d b d
n ad bc
2
[审题视点] 第(2)问由a=40,b=30,c=160,d=270,代 入公式可求K2,由K2的值与6.635比较断定.第(3)问从抽样 方法说明.
6.独立性检验 (1)用变量的不同“值”表示个体所属的不同类别,这种变量 称为分类变量.例如:是否吸烟,宗教信仰,国籍等. (2)列出的两个分类变量的频数表,称为列联表. (3)一般地,假设有两个分类变量X和Y,它们的值域分别为 {x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为: 2×2列联表 y1 y2 总计 x1 a b a+b x2 总计 c a+c c+d b+d a+b+c+d d
解析 从散点图看,散点图的分布成团状,无任 何规律,所以两个变量不具有线性相关关系.
考向二
独立性检验
【例2】(2010·全国新课标)为调查某地区老年人是否需要志愿者 提供帮助,用简单随机抽样方法从该地区调查了500位老年人, 结果如下: 性别
是否需要志愿者 需要 不需要 男 女 40 160 30 270
从散点图上看,点散布在从左下角到右上角的区域内,对 于两个变量的这种相关关系,我们将它称为正相关;点散 布在从左上角到右下角的区域内,两个变量的这种相关关 系称为负相关. 2.线性相关 从散点图上看,如果这些点从整体上看大致分布在一条 直线附近,则称这两个变量之间具有线性相关关系,这 条直线叫回归直线.
5.线性回归模型 (1)y=bx+a+e中,a、b称为模型的未知参数;e称为随机误 差. (2)相关指数 用相关指数R2来刻画回归的效果,其计算公式是:
R2
y
n i 1 n i 1
变量间的相关关系-统计案例
高考数学知识点:变量间的相关关系-统计案例2016-04-22 15:15一、变量间的相关关系1.常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.2.从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.典型例题1:某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.2.由回归方程进行预报,仅是一个预报值,而不是真实发生的值.3.使用K2统计量作2×2列联表的独立性检验时,要求表中的4个数据都要大于5,在选取样本容量时一定要注意.二、两个变量的线性相关1.从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.2.回归方程为3.求最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.4.相关系数,当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.典型例题2:1.相关关系的判断方法一是利用散点图直观判断,二是利用相关系数作出判断.2.对于由散点图作出相关性判断时,若散点图呈带状且区域较窄,说明两个变量有一定的线性相关性,若呈曲线型也是有相关性.3.由相关系数r判断时|r|越趋近于1相关性越强.三、独立性检验典型例题3:。
高考数学一轮复习第3讲 变量间的相关关系与统计案例
第3讲变量间的相关关系与统计案例1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函01确定性关系.(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关02正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为03负相关.2.回归方程与回归分析(1)线性相关关系与回归直线04一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)回归方程05距离的平方和最小的方法叫做最小二乘法.②回归方程:方程y^=b^x+a^是两个具有线性相关关系的变量的一组数据(x1,^,b^是待定数.y1),(x2,y2),…,(x n,y n)的回归方程,其中a错误!(3)回归分析06相关关系的两个变量进行统计分析的一种常用方法.②样本点的中心:在具有线性相关关系的数据(x1,y1),(x2,y2),…,(x n,y n)中,x-=1n(x1+…+x n),y-=1n(y1+…+y n),a^=y--b^x-,(x-,y-)称为样本点的中心.③相关系数r=错误!,当r>0时,两变量错误!正相关;当r<0时,两变量错误!负相关;当|r|≤1且|r|越接近于1|r|≤1且|r|越接近于0,相关程3.独立性检验(1)独立性检验的有关概念①分类变量可用变量的不同“值”②2×2列联表假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为利用随机变量K2=错误!(其中n=a+b+c+d为样本容量)来判断“两个变量有关系”的方法称为独立性检验.步骤如下:①计算随机变量K2的观测值k,查表确定临界值k0:P(K2≥k0);否则,就认为在犯错误的概率不超过P(K2≥k0)的前提下不能推断“X与Y 有关系”.^,b^,应充分利用回归直线过样本点的1.求解回归方程的关键是确定回归系数a中心(x-,y-).^值,仅是一个预报值,不是真实发生的值.2.根据回归方程计算的y3.根据K2的值可以判断两个分类变量有关的可信程度,若K2越大,则两分类变量有关的把握越大.1.下面是一个2×2列联表:y1y2总计x1 a 2173x2222547总计 b 46120 其中a,b处填的值分别为()A.9472 B.5250C.5274 D.7452答案 C解析由a+21=73,得a=52,a+22=b,得b=74.故选C.2.(2020·长沙一中月考)甲、乙、丙、丁四位同学各自对A,B两个变量的线性相关性做了试验,并用回归分析方法分别求得相关系数r与残差平方和m,如下表:甲乙丙丁r 0.820.780.690.85m 106115124103则哪位同学的试验结果体现的A,B两变量有更强的线性相关性()A.甲B.乙C.丙D.丁答案 D解析|r|越接近1,m越小,线性相关性越强,故选D.3.(2020·黄石一中月考)变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则()A.r2<r1<0 B.0<r2<r1C.r2<0<r1D.r2=r1答案 C解析对于变量Y与X而言,Y随X的增大而增大,故Y与X正相关,即r1>0;对于变量V与U而言,V随U的增大而减小,故V与U负相关,即r2<0,故选C.4.通过随机询问110名不同的大学生是否爱好某项运动,得到了如下的列联表.参照附表,能得到的正确结论是()B.有99%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”附:K2=错误!,n=a+b+c+d.解析由列联表中的数据可得K2=错误!≈7.822>6.635,故有99%以上的把握认为“爱好该项运动与性别有关”.故选A.5.(2021·山西太原摸底)某产品的广告费用x与销售额y的统计数据如下表:广告费用x(万元)423 5销售额y(万元)49263954 根据上表可得回归方程y^=b^x+a^中的b^为9.4,据此模型预测广告费用为6万元时销售额约为万元.答案65.5解析由表可计算x-=4+2+3+54=3.5,y-=49+26+39+544=42,因为点(3.5,42)在回归直线y^=b^x+a^上,且b^=9.4,所以42=9.4×3.5+a^,解得a^=9.1.故回归方程为y^=9.4x+9.1.令x=6,得y^=65.5.故预测广告费用为6万元时销售额约为65.5万元.多角度探究突破考向一两个变量的相关性角度1相关关系的判断例1观察下图所示的散点图,其中对两个变量的相关关系判断正确的是()A.a为正相关,b为负相关,c为不相关B.a为负相关,b为不相关,c为正相关C.a为负相关,b为正相关,c为不相关D.a为正相关,b为不相关,c为负相关答案 D解析根据散点图,由相关性可知,a中各点分布在从左下角到右上角的区域里,是正相关;b中各点分布不是带状的,相关性不明确,所以不相关;c中各点分布在从左上角到右下角的区域里,是负相关.角度2相关系数的意义例2(2020·南宁一中期末)某公司为了准确地把握市场,做好产品生产计划,对过去四年的数据进行整理得到了第x年与年销售量y(单位:万件)之间的关系如表:x 123 4y 12284256(1)在图中画出表中数据的散点图;(2)根据(1)中的散点图拟合y与x的回归模型,并用相关系数加以说明;(3)建立y关于x的回归方程,预测第5年的销售量约为多少?参考数据:错误!≈32.7,错误!≈2.24,错误!x i y i=418.参考公式:相关系数r=错误!,回归方程错误!=错误!+错误!x的斜率和截距的最小二乘估计分别为b^=错误!=错误!,错误!=错误!-错误!错误!.解(1)作出散点图如图:(2)由(1)中的散点图可知,各点大致分布在一条直线附近,由题中所给表格及参考数据,得x -=52,y -=692,∑4i =1x i y i=418,错误!≈32.7,错误!x 错误!=30,错误! (x i -错误!)(y i -错误!)=错误!x i y i -4错误! y -=418-4×52×692=73,错误!= 错误!=错误!=错误!≈2.24,∴r =错误!≈错误! ≈0.9966.∵y 与x 的相关系数近似为0.9966,说明y 与x 的线性相关程度相当强, ∴可以用线性回归模型拟合y 与x 的关系. (3)由(2),知x -=52,y -=692,∑4i =1x i y i -4x -y -=73,∑4i =1x 2i -4x -2=5, ∴b ^ =∑4i =1xiyi -4x -y -∑4i =1x2i -4x -2=735, a ^=y --b ^ x -=692-735×52=-2.故y 关于x 的回归直线方程为y ^=735x -2,当x=5时,y^=735×5-2=71,∴预测第5年的销售量约为71万件.判断相关关系的两种方法(1)散点图法:如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.(2)相关系数法:利用相关系数判定,|r|越趋近于1相关性越强.1.(2021·贵阳摸底)对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是()A.r2<r4<0<r3<r1B.r4<r2<0<r1<r3C.r4<r2<0<r3<r1D.r2<r4<0<r1<r3答案 A解析易知题中图①与图③是正相关,图②与图④是负相关,且图①与图②中的样本点集中分布在一条直线附近,则r2<r4<0<r3<r1.2.为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:抽取次序12345678零件尺寸9.9510.129.969.9610.019.929.9810.04经计算得x-=116i=116x i=9.97,s=错误!=错误!≈0.212, 错误!≈18.439,错误!(x i-x-)(i-8.5)=-2.78,其中x i为抽取的第i个零件的尺寸,i=1,2, (16)(1)求(x i,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);(2)一天内抽检零件中,如果出现了尺寸在(x--3s,x-+3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.①从这一天抽检的结果看,是否需对当天的生产过程进行检查?②在(x--3s,x-+3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(x i,y i)(i=1,2,…,n)的相关系数r=错误! .参考数据:0.008≈0.09.解(1)由样本数据,得(x i,i)(i=1,2,…,16)的相关系数r=错误!≈-2.780.212×16×18.439≈-0.18.由于|r|<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.(2)①由于x-=9.97,s≈0.212,因此由样本数据可以看出抽取的第13个零件的尺寸在(x --3s ,x -+3s )以外,因此需对当天的生产过程进行检查.②剔除离群值,即第13个数据,剩下数据的平均数为115×(16×9.97-9.22)=10.02,这条生产线当天生产的零件尺寸的均值的估计值为10.02.i =116x2i ≈16×0.2122+16×9.972≈1591.134, 剔除第13个数据,剩下数据的样本方差为 115×(1591.134-9.222-15×10.022)≈0.008, 这条生产线当天生产的零件尺寸的标准差的估计值为 0.008≈0.09. 考向二 回归分析例3 (2020·广东七校联考)在红外线照射下,组织温度升高,毛细血管扩张,血流加快,物质代谢增强,组织细胞活力及再生能力提高,因此红外线治疗仪对某些疾病的治疗有着很好的作用.某药店兼营某红外线治疗仪,经过近5个月的营销,对销售状况进行相关数据分析,发现月销售量与销售价格有关,统计数据如下表:(2)①每台红外线治疗仪的价格为165元时,预测红外线治疗仪的月销售量;(四舍五入为整数)②若该红外线治疗仪的成本为120元/台,要使每月获得最大的纯收益,利用(1)中结论,问每台红外线治疗仪的销售价格应定为多少?(四舍五入,精确到1元)参考公式:回归直线方程y ^=b ^x +a ^,其中b ^=错误!,错误!=错误!-错误! 错误!. 解 (1)x -=140+150+160+170+1805=160,y -=64+55+45+35+265=45,∑5 i =1 (x i -x -)2=(140-160)2+(150-160)2+(160-160)2+(170-160)2+(180-160)2=1000,∑5 i =1(x i -x -)(y i -y -)=-20×19-10×10+0×0-10×10-20×19=-960, ∴b ^ =错误!=错误!=-0.96,∴a ^=y --b ^ x -=45+0.96×160=198.6, ∴y 关于x 的回归方程为y ^=-0.96x +198.6.(2)①由(1)知,当x =165时,y ^=-0.96×165+198.6=40.2≈40,即每台红外线治疗仪的价格为165元时,红外线治疗仪的月销售量约为40台.②药店每月获得的纯收益Q (x )=(-0.96x +198.6)(x -120)=-0.96x 2+313.8x -23832,∴当x =313.82×0.96≈163时,Q (x )取得最大值,即要使每月获得最大的纯收益,每台红外线治疗仪的销售价格应定为163元. (1)正确理解计算b ^,a ^的公式和准确的计算是求线性回归方程的关键.(2)回归直线方程y ^=b ^x +a ^必过样本点的中心(x -,y -).(3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.(4)对非线性回归分析问题可通过适当的换元转化为线性回归分析问题求解.3.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费x i和年销售量y i(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.x-y-w-∑8i=1 (x i-x-)2∑8i=1 (w i-w-)2∑8i=1 (x i-x-)(y i-y-)∑8i=1 (w i-w-)(y i-y-)46.6563 6.8289.8 1.61469108.8表中w i=xi,w-=8∑8i=1w i.(1)根据散点图判断,y=a+bx与y=c+d x哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:①年宣传费x=49时,年销售量及年利润的预报值是多少?②年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),…,(u n,v n),其回归直线v^=α^+β^u的斜率和截距的最小二乘估计分别为β^=错误!,错误!=错误!-错误!错误!.解(1)由散点图可以判断,y=c+d x适宜作为年销售量y关于年宣传费x的回归方程类型.(2)令w=x,先建立y关于w的线性回归方程.由于d^=错误!=错误!=68,c^=y--d^w-=563-68×6.8=100.6,所以y关于w的线性回归方程为y^=100.6+68w,因此y关于x的回归方程为y^=100.6+68x.(3)①由(2)知,当x=49时,年销售量y的预报值y^=100.6+6849=576.6,年利润z的预报值z^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z的预报值z^=0.2(100.6+68x)-x=-x+13.6x+20.12.所以当x=13.62=6.8,即x=46.24时,z^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.考向三独立性检验例4(1)党的十九大报告明确提出:在共享经济等领域培育增长点、形成新动能.共享经济是公众将闲置资源通过社会化平台与他人共享,进而获得收入的经济现象.为考察共享经济对企业经济活跃度的影响,在四个不同的企业各取两个部门进行共享经济对比试验,根据四个企业得到的试验数据画出如下四个等高条形图,最能体现共享经济对该部门的发展有显著效果的图形是()答案 D解析根据四个选项中的等高条形图可知,选项D中共享与不共享的企业经济活跃度的差异较大,且最能体现共享经济对该部门的发展有显著效果,故选D.(2)(2020·全国卷Ⅲ)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):锻炼人次空气质量等级[0,200](200,400](400,600] 1(优)216252(良)51012 3(轻度污染)6784(中度污染)720①分别估计该市一天的空气质量等级为1,2,3,4的概率;②求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);③若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?人次≤400人次>400空气质量好 空气质量不好附:K 2=错误!,P (K 2≥k 0)0.050 0.010 0.001 k 03.8416.63510.828 解 ①由频数分布表可知,该市一天的空气质量等级为1的概率为2+16+25100=0.43,空气质量等级为2的概率为5+10+12100=0.27,空气质量等级为3的概率为6+7+8100=0.21,空气质量等级为4的概率为7+2+0100=0.09. ②由频数分布表可知,一天中到该公园锻炼的平均人次的估计值为100×20+300×35+500×45100=350.③2×2列联表如下:人次≤400人次>400空气质量好 33 37 空气质量不好 228K 2=错误!≈5.820>3.841,因此有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.1.比较几个分类变量有关联的可能性大小的方法(1)通过计算K 2的大小判断:K 2越大,两变量有关联的可能性越大.(2)通过计算|ad -bc |的大小判断:|ad -bc |越大,两变量有关联的可能性越大. (3)通过计算a a +b与c c +d的大小判断:相差越大,两变量有关联的可能性越大.2.独立性检验的一般步骤(1)根据样本数据制成2×2列联表.(2)根据公式K2=错误!计算K2的观测值k.(3)比较k与临界值的大小关系,作统计推断.4.(2020·南阳市一中第一次目标考试)为考察A,B两种药物预防某疾病的效果,进行动物实验,分别得到如下等高条形图.根据图中信息,在下列各项中,说法最佳的一项是()A.药物B的预防效果优于药物A的预防效果B.药物A的预防效果优于药物B的预防效果C.药物A,B对该疾病均有显著的预防效果D.药物A,B对该疾病均没有预防效果答案 B解析由题图可得服用药物A的患病比例少于服用药物B的患病比例,而服用药物A的未患病比例多于服用药物B的未患病比例,所以药物A的预防效果优于药物B 的预防效果.故选B.5.(2019·全国卷Ⅰ)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:满意不满意男顾客4010女顾客3020(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?解(1)由调查数据,得男顾客中对该商场服务满意的比率为4050=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为3050=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6.(2)K2=错误!≈4.762.由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.一、单项选择题1.为了考察两个变量x和y之间的线性相关性,甲、乙两位同学各自独立地做了100次和150次试验,并且利用线性回归方法,求得回归直线分别为l1和l2,已知两个人在试验中发现变量x的观测数据的平均值都是s,变量y的观测数据的平均值都是t,那么下列说法正确的是()A.l1和l2有交点(s,t)B.l1与l2相关,但交点不一定是(s,t)C.l1与l2必定平行D.l1与l2必定重合答案 A解析由题意知(s,t)是甲、乙两位同学所做试验的样本点的中心,而线性回归直线恒过样本点的中心,故选A.2.某互联网公司借助手机微信平台推广自己的产品,对今年前5个月的月微信推广费用x与月利润额y(单位:百万元)进行了初步统计,得到下列表格中的数据:x 24568y 304060p 70经计算,月微信推广费用x与月利润额y满足线性回归方程y^=6.5x+17.5,则p 的值为()A.50 B.56.5C.60 D.70答案 A解析由于回归直线过样本中心点,x-=5,y-=200+p5,代入线性回归方程得200+p5=6.5×5+17.5,解得p=50.故选A.3.(2020·全国卷Ⅰ)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(x i,y i)(i=1,2,…,20)得到下面的散点图:由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是()A.y=a+bx B.y=a+bx2C.y=a+b e x D.y=a+b ln x答案 D解析由散点图分布可知,散点图分布在一个对数型函数图象的附近,因此最适宜作为发芽率y和温度x的回归方程类型的是y=a+b ln x.故选D.4.(2020·湘潭摸底)给出下列四种说法:①将一组数据中的每个数都加上或减去同一个常数后,均值与方差都不变;②将某校参加摸底测试的1200名学生分别编号为1,2,3,…,1200,从中抽取一个容量为50的样本进行学习情况调查,按系统抽样的方法分为50组,如果第1组中抽取的学生编号为20,则第4组中抽取的学生编号为92;③回归直线y ^=bx +a 必经过点(x -,y -);④在吸烟与患肺病这两个分类变量的计算中,由独立性检验知,有99%的把握认为吸烟与患肺病有关系时,我们说现有100人吸烟,那么其中有99人患肺病.其中错误结论的编号是( )A .①②④B .②④C .①④D .①③答案 C解析 将一组数据中的每个数都加上或减去同一个常数,均值变,方差不变,所以①错误;由题意知样本间隔为120050=24,若第1组抽取的学生编号为20,则第4组抽取的学生编号为20+(4-1)×24=92,所以②正确;回归直线必经过样本点的中心(x -,y -),所以③正确;由独立性检验知,有99%的把握认为吸烟与患肺病有关系,是指有1%的可能性使推断出现错误,所以④错误.故选C.5.以下四个命题:①在回归分析中,可用相关指数R 2的值判断模型的拟合效果,R 2越大,模型的拟合效果越好;②回归模型中残差是实际值y i 与估计值y ^的差,残差点所在的带状区域宽度越窄,说明模型拟合精度越高;③在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =-12x +1上,则这组样本数据的线性相关系数为-1 2;④对分类变量x与y的随机变量K2的观测值k来说,k越小,判断“x与y有关系”的把握程度越大.其中真命题的个数为()A.1 B.2C.3 D.4答案 B解析根据相关指数的意义可知①正确;由残差的定义和残差图的绘制可以知道②正确;相关系数r错误!反映的是两变量之间线性相关程度的强弱,与回归直线斜率b^=错误!无关,因为所有样本点都在直线y=-错误!x+1上,所以样本数据的线性相关系数为-1,故③错误;K2的观测值k越小,x与y有关系的把握程度越小,故④错误.故选B.二、填空题6.高三年级267位学生参加期末考试,某班37位学生的语文成绩、数学成绩与总成绩在全年级中的排名情况如图所示,甲、乙、丙为该班三位学生.从这次考试成绩看,(1)在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是;(2)在语文和数学两个科目中,丙同学的成绩名次更靠前的科目是 .答案(1)乙(2)数学解析(1)由图分析,甲的语文成绩名次比其总成绩名次靠后,乙的语文成绩名次比其总成绩名次靠前,故填乙.(2)根据丙在两个图中对应的点的纵坐标,观察易得,丙同学成绩名次更靠前的科目是数学.7.某数学老师身高176 cm,他爷爷、父亲和儿子的身高分别是173 cm、170 cm 和182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高约为 cm.错误!答案185解析设父亲身高为x cm,儿子身高为y cm,则x 173170176y 170176182x-=173,y-=176,b^=错误!=1,a^=y--b^x-=176-1×173=3,所以y^=x+3,当x=182时,y^=185.8.(2020·北京海淀模拟)如图是某地区2004年至2020年环境基础设施投资额y(单位:亿元)的折线图.为了预测该地区2022年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2004年至2020年的数据(时间变量t的值依次为1,2,…,17)建立模型①:y^=-30.4+13.5t;根据2014年至2020年的数据(时间变量t的值依次为1,2,…,7)建立模型②:y^=99+17.5t.利用这两个模型,该地区2022年的环境基础设施投资额的预测值分别为,;并且可以判断利用模型得到的预测值更可靠.答案226.1(亿元)256.5(亿元)②解析①y^=-30.4+13.5×19=226.1(亿元),②y^=99+17.5×9=256.5(亿元);当年份为2020时,对于模型①:t=17,y^=-30.4+13.5×17=199.1(亿元),对于模型②:t=7,y^=99+17.5×7=221.5(亿元),所以②的准确度较高,①偏差较大,所以选择模型②得到的预测值更可靠.三、解答题9.某媒体为调查喜欢娱乐节目A是否与观众性别有关,随机抽取了30名男性和30名女性观众,抽查结果用等高条形图表示如下:(1)根据该等高条形图,完成下列2×2列联表;喜欢节目A 不喜欢节目A 总计男性观众女性观众总计60欢娱乐节目A与观众性别有关”?附:解 (1)由题意,得2×2列联表如下.k =错误!=错误!≈5.934>3.841,所以能在犯错误的概率不超过0.05的前提下认为“喜欢娱乐节目A 与观众性别有关”.10.某测试团队为了研究“饮酒”对“驾车安全”的影响,随机选出100名驾驶员先后在无酒状态、酒后状态下进行“停车距离”测试,测试的方案:电脑模拟驾驶,以某速度匀速行驶,记录下驾驶员的“停车距离”(驾驶员从看到意外情况到车子停下所需要的距离),无酒状态与酒后状态下的试验数据分别列于下表.表1(1)求a ,b 的值,并估计驾驶员在无酒状态下停车距离的平均数; (2)根据最小二乘法,由表2的数据计算y 关于x 的回归方程y ^=b ^x +a ^; (3)该测试团队认为:若驾驶员酒后驾车的平均“停车距离”y 大于(1)中无酒状态下的停车距离的平均数的3倍,则认定驾驶员是“醉驾”.请根据(2)中的回归方程,预测当每毫升血液酒精含量大于多少毫克时为“醉驾”.⎝ ⎛⎭⎪⎪⎪⎪⎫附:回归方程y ^=b ^ x +a ^中,b ^=∑i =1nxiyi -n x -y -∑i =1n x2i -n x -2,a ^=y --b ^ x -解 (1)依题意,得610a =50-26,解得a =40.又a +b +36=100,解得b =24, 故停车距离的平均数为15×26100+25×40100+35×24100+45×8100+55×2100=27. (2)依题意,得x -=50,y -=60,b ^ =10×30+30×50+50×60+70×70+90×90-5×50×60102+302+502+702+902-5×502=0.7,a ^=60-0.7×50=25, 所以回归直线方程为y ^=0.7x +25.(3)由(1)知当y >81时,认定驾驶员是“醉驾”.令y ^>81,得0.7x +25>81,解得x >80,则当每毫升血液酒精含量大于80毫克时,认定为“醉驾”.。
高考数学考点突破——统计与统计案例:变量间的相关关系与统计案例
变量间的相关关系与统计案例【考点梳理】1.回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.2.线性回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^=b ^x +a ^,则b ^=∑ni =1x i -x y i -y ∑ni =1 x i -x 2=∑ni =1x i y i -n x y∑ni =1x 2i -n x2,a ^=y-b ^x .其中,b ^是回归方程的斜率,a ^是在y 轴上的截距.3.残差分析(1)残差:对于样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),它们的随机误差为e i =y i -bx i -a ,i =1,2,…,n ,其估计值为e ^i =y i -y ^i =y i -b ^x i -a ^,i =1,2,…,n ,e ^i 称为相应于点(x i ,y i )的残差.(2)相关指数:R 2=1-∑ni =1y i -y ^i2∑ni =1 y i -y2.4.独立性检验(1)利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验.(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)为(其中n=a+b+c+d为样本容量).则随机变量K2=a +b a+c b+d c+d【考点突破】考点一、相关关系的判断【例1】(1)两个变量的相关关系有①正相关,②负相关,③不相关,则下列散点图从左到右分别反映的变量间的相关关系是( )A.①②③ B.②③①C.②①③ D.①③②(2)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关(3)对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A.r2<r4<0<r3<r1 B.r4<r2<0<r1<r3C.r4<r2<0<r3<r1 D.r2<r4<0<r1<r3[答案] (1)D (2) C (3) A[解析] (1)第一个散点图中,散点图中的点是从左下角区域分布到右上角区域,则是正相关;第三个散点图中,散点图中的点是从左上角区域分布到右下角区域,则是负相关;第二个散点图中,散点图中的点的分布没有什么规律,则是不相关,所以应该是①③②.(2)因为y =-0.1x +1的斜率小于0,故x 与y 负相关.因为y 与z 正相关,可设z =b ^y+a ^,b ^>0,则z =b ^y +a ^=-0.1b ^x +b ^+a ^,故x 与z 负相关.(3)由相关系数的定义以及散点图所表达的含义可知r 2<r 4<0<r 3<r 1. 【类题通法】1.利用散点图判断两个变量是否有相关关系是比较直观简便的方法.如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关,若点散布在左上角到右下角的区域,则负相关.2.利用相关系数判定,当|r |越趋近于1,相关性越强. 当残差平方和越小,相关指数R 2越大,相关性越强. 【对点训练】1.在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据,并制作成如图所示的人体脂肪含量与年龄关系的散点图.根据该图,下列结论中正确的是( )A .人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%B .人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%C .人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%D .人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20% [答案] B[解析] 因为散点图呈现上升趋势,故人体脂肪含量与年龄正相关;因为中间两个数据大约介于15%到20%之间,故脂肪含量的中位数小于20%.2.四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648; ③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④ D .①④[答案] D[解析] 正相关指的是y 随x 的增大而增大,负相关指的是y 随x 的增大而减小,故不正确的为①④.3.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0C .12 D .1[答案] D[解析] 因为所有样本点都在直线y =12x +1上,所以这组样本数据完全正相关,故其相关系数为1.考点二、线性回归方程及应用【例2】某地随着经济的发展,居民收入逐年增长,下表是该地某银行连续五年的储蓄存款(年底余额),如下表1:为了研究计算的方便,工作人员将上表的数据进行了处理,t =x -2 012,z =y -5得到下表2:(1)求z 关于t 的线性回归方程;(2)通过(1)中的方程,求出y 关于x 的回归方程;(3)用所求回归方程预测到2020年年底,该地储蓄存款额可达多少?(附:对于线性回归方程y ^=b ^x +a ^,其中b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b ^x )[解析] (1)由已知,得t =3,z =2.2,∑i =15t i z i =45,∑i =15t 2i =55,b ^=45-5×3×2.255-5×9=1.2,a ^=z -b ^t =2.2-1.2×3=-1.4,∴z ^=1.2t -1.4.(2)将t =x -2 012,z =y -5,代入z ^=1.2t -1.4, 得y -5=1.2(x -2 012)-1.4,即y ^=1.2x -2 410.8. (3)∵y ^=1.2×2 020-2 410.8=13.2,∴预测到2020年年底,该地储蓄存款额可达13.2千亿元. 【类题通法】回归直线方程中系数的2种求法(1)公式法:利用公式,求出回归系数b ^,a ^.(2)待定系数法:利用回归直线过样本点中心(x ,y )求系数. 【对点训练】某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中w i =x i ,w =18∑i =18w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程.(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑i =1nu i -uv i -v∑i =1nu i -u2,α^=v -β^u .[解析] (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程.由于d ^=∑i =18w i -wy i -y∑i =18w i -w2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程y ^=100.6+68w , 因此y 关于x 的回归方程为y ^=100.6+68x . (3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6,年利润z 的预报值z ^=576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预报值z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.【例3】如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1~7分别对应年份2008~2014.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 参考数据:∑ 7i =1y i =9.32,∑ 7i =1t i y i =40.17,∑7i =1y i -y2=0.55,7≈2.646.参考公式:相关系数r=∑ni =1t i -ty i -y∑ ni =1t i -t2∑ni =1y i -y2,回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为b ^=∑ ni =1t i -ty i -y∑ i =1t i -t2,a ^=y --b ^t .[解析] (1)由折线图中的数据和附注中的参考数据得 t =4,∑ 7i =1(t i -t )2=28,∑7i =1y i -y2=0.55,∑7i =1(t i -t )(y i -y )=∑ 7i =1t i y i -t ∑7i =1y i =40.17-4×9.32=2.89, 所以r ≈ 2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当大,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1)得b ^=∑ 7i=1t i -t y i -y∑7i =1t i -t2=2.8928≈0.103. a ^=y -b ^t ≈1.331-0.103×4≈0.92.所以y 关于t 的回归方程为y ^=0.92+0.10t .将2016年对应的t =9代入回归方程得y ^=0.92+0.10×9=1.82. 所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨. 【类题通法】线性回归分析就是研究两组变量间线性相关关系的一种方法,通过对统计数据的分析,可以预测可能的结果,这就是线性回归方程的基本应用,因此利用最小二乘法求线性回归方程是关键,必须熟练掌握线性回归方程中两个重要估计量的计算. 【对点训练】为了监控某种零件的一条生产线的生产过程,检验员每隔30 min 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm ).下面是检验员在一天内依次抽取的16个零件的尺寸:经计算得16119.9716i i x x ===∑,0.212s ==≈,18.439≈,161()(8.5) 2.78i i xx i =--=-∑,其中i x 为抽取的第i 个零件的尺寸,1,2,,16i =⋅⋅⋅.(1)求(,)i x i (1,2,,16)i =⋅⋅⋅的相关系数r ,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若||0.25r <,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).(2)一天内抽检零件中,如果出现了尺寸在(3,3)x s x s -+之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.(i)从这一天抽检的结果看,是否需对当天的生产过程进行检查?(ii)在(3,3)x s x s -+之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(,)i i x y (1,2,,)i n =⋅⋅⋅的相关系数()()niix x y y r --=∑,0.09≈.[解析] (1)由样本数据得(,)(1,2,,16)i x i i =的相关系数为16()(8.5)0.18ix x i r --==≈-∑.由于||0.25r <,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.(2)(i)由于9.97,0.212x s =≈,由样本数据可以看出抽取的第13个零件的尺寸在(3,3)x s x s -+以外,因此需对当天的生产过程进行检查.(ii)剔除离群值,即第13个数据,剩下数据的平均数为1(169.979.22)10.0215⨯-=,这条生产线当天生产的零件尺寸的均值的估计值为10.02.162221160.212169.971591.134ii x==⨯+⨯≈∑,剔除第13个数据,剩下数据的样本方差为221(1591.1349.221510.02)0.00815--⨯≈,0.09≈.考点三、独立性检验【例4】海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)设两种养殖方法的箱产量相互独立,记A 表示事件“旧养殖法的箱产量低于50 kg ,新养殖法的箱产量不低于50 kg”,估计A 的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:(3)(精确到0.01). 附:K 2=n a +bc +d a +cb +d.[解析] (1)记B 表示事件“旧养殖法的箱产量低于50 kg”,C 表示事件“新养殖法的箱产量不低于50 kg”.由题意知P (A )=P (BC )=P (B )P (C ). 旧养殖法的箱产量低于50 kg 的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62, 故P (B )的估计值为0.62.新养殖法的箱产量不低于50 kg 的频率为 (0.068+0.046+0.010+0.008)×5=0.66, 故P (C )的估计值为0.66.因此,事件A 的概率估计值为0.62×0.66=0.409 2. (2)由(1)知可得列联表由表中数据及K 2K 2=-2100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg 的直方图面积为(0.004+0.020+0.044)×5=0.34<0.5,箱产量低于55 kg 的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5, 故新养殖法箱产量的中位数的估计值为50+0.5-0.340.068≈52.35(kg). 【类题通法】解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:(1)根据样本数据制成2×2列联表; (2)根据公式K 2=n ad -bc 2a +ba +cb +dc +d计算K 2的观测值k ;(3)比较k 与临界值的大小关系,作统计推断. 【对点训练】为了了解某学校高二年级学生的物理成绩,从中抽取n 名学生的物理成绩(百分制)作为样本,按成绩分成5组:[50,60),[60,70),[70,80),[80,90),[90,100],频率分布直方图如图所示,成绩落在[70,80)中的人数为20.(1)求a 和n 的值;(2)根据样本估计总体的思想,估计该校高二学生物理成绩的平均数x -和中位数m ; (3)成绩在80分以上(含80分)为优秀,样本中成绩落在[50,80)中的男、女生人数比为1∶2,成绩落在[80,100)中的男、女生人数比为3∶2,完成2×2列联表,并判断能否在犯错误的概率不超过0.05的前提下认为物理成绩优秀与性别有关.附:参考公式和数据:K 2=a +bc +d a +cb +d,[解析] (1), 解得a =0.05,则n =2010×0.05=40.(2)由频率分布直方图可知各组的频率分别为0.05,0.2,0.5,0.15,0.1, 所以x -=55×0.05+65×0.2+75×0.5+85×0.15+95×0.1=75.5, (m -70)×0.05=0.5-(0.05+0.2),得m =75.(3)由频率分布直方图可知成绩优秀的人数为40×(0.015+0.01)×10=10,则不优秀的人数为40-10=30.所以优秀的男生为6人,女生为4人; 不优秀的男生为10人,女生为20人. 所以2×2列联表如下:所以K 2=4016×24×10×30≈2.222<3.841,所以在犯错误的概率不超0.05的前提下不能认为物理成绩优秀与性别有关.。
高考文科数学变量间相关关系与统计案例考点讲解
高考复习讲义 考点全通关 11
返回目录
变量间的相关关系与统计案例
通关秘籍
1.通常认为k≤2.706时,样本数据就没有充分的证据显示“X与Y有关 2.独立性检验得出的结论是带有概率性质的,只能说结论成立的概率 能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注 2小.速,因率为是对平瞬某均时个速速问率度题是的下路大确程小定与,性但时结平间论均的,速否比率则值不就,它是可与平能平均对均速统速度计度的计的大算的结果作出错误的 大小没有对应关系.
所有理想化模型均忽略对所研究问 题无影响的因素,是研究问题的一种 理想方法.在高中学习的理想模型还 有:点电荷、理想气体、弹簧振子、 点光源等.
高考复习讲义 考点全通关 4 3.两个变量的线性相关
考点一 回归分析
变量间的相关关系与统计案例
如果散点图中点的分布从整体上看大致在一条直线附近,则这两个变量之间具有线性相关关 系,这条直线叫做回归直线.回归直线对应的方程叫做回归直线方程(简称回归方程).
P(K2≥k0) 0.05 0.025 0.010
所有理想化k0模型均忽3.8略41对所5.研02究4 问6.635 题无影响的因素,是研究问题的一种 理想方法.在高中学习的理想模型还 有:点电荷、理想气体、弹簧振子、 点光源等.
0.005 0.001 7.879 10.828
高考复习讲义 考点全通关 10 3.独立性检验的一般步骤
所有理想化模型均忽略对所研究问 题无影响的因素,是研究问题的一种 理想方法.在高中学习的理想模型还 有:点电荷、理想气体、弹簧振子、 点光源等.
高考复习讲义 考点全通关 2 1.变量间的相关关系
通关秘籍
考点一 回归分析
变量间的相关关系与统计案例
第九章 第三节 变量间的相关关系、统计案例
A.变量x与y正相关,u与v正相关 .变量 与 正相关 正相关, 与 正相关 B.变量x与y正相关,u与v负相关 .变量 与 正相关 正相关, 与 负相关 C.变量x与y负相关,u与v正相关 .变量 与 负相关 负相关, 与 正相关 D.变量x与y负相关,u与v负相关 .变量 与 负相关 负相关, 与 负相关
[究 疑 点] 究 1.相关关系与函数关系有何异同点? .相关关系与函数关系有何异同点? 提示:相同点:两者均是指两个变量的关系. 提示:相同点:两者均是指两个变量的关系. 不同点:(1)函数关系是一种确定关系,相关关系是一 函数关系是一种确定关系, 不同点: 函数关系是一种确定关系 种非确定的关系; 种非确定的关系; (2)函数关系是一种因果关系,而相关关系不一定是因 函数关系是一种因果关系, 函数关系是一种因果关系 果关系,也可能是伴随关系. 果关系,也可能是伴随关系.
2.根据独立性检验的基本思想,得出的两个分类变量有 .根据独立性检验的基本思想, 关系,这样的结论一定是正确的吗? 关系,这样的结论一定是正确的吗? 提示:在实际问题中, 提示:在实际问题中,独立性检验的结论仅仅是一种 数学关系,得出的结论也可能犯错误,比如: 数学关系,得出的结论也可能犯错误,比如:在推测 吸烟与肺癌是否有关时,通过收集、整理、分析数据, 吸烟与肺癌是否有关时,通过收集、整理、分析数据, 我们得到“吸烟与患肺癌有关”的结论, 我们得到“吸烟与患肺癌有关”的结论,并且有超过 99%的把握说明吸烟与患肺癌有关系,或者这个结论 的把握说明吸烟与患肺癌有关系, 的把握说明吸烟与患肺癌有关系 出错的概率为0.01以下.但实际上一个人吸烟也不一 以下. 出错的概率为 以下 定会患肺癌, 定会患肺癌,这是数学中的统计思维与确定性思维差 异的反映. 异的反映.
11.5 变量间的相关关系、统计案例(讲解部分) 高考数学(课标版,理科)复习课件
例1 (2019广东深圳第二次调研,18)某网店经销某商品,为了解该商品的 月销量y(单位:千件)与当月售价x(单位:元/件)之间的关系,收集了5组数据 进行了初步处理,得到下表:
x
5
6
7
8
9
y
8
6
4.5
3.5
3
(1)统计学中用相关系数r来衡量两个变量之间线性相关关系的强弱,若|r|∈ [0.75,1],则认为相关性很强;若|r|∈(0.25,0.75),则认为相关性一般;若|r|∈[0, 0.25],则认为相关性较弱.请计算相关系数r,并说明y与x之间的线性相关关系 的强弱(精确到0.01); (2)求y关于x的线性回归方程; (3)根据(2)中的线性回归方程,估计当售价x定为多少时,月销售额最大?(月 销售额=月销售量×当月售价)
2.利用公式K2=
(a
n(ad -bc)2 b)(c dK2的观测值k.
3.如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α;否
则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或
者在样本数据中没有发现足够证据支持结论“X与Y有关系”.
a+c
b+d
a+b+c+d
可构造一个随机变量K2=
n(ad -bc)2
,其中n=a+b+c+d为样本容量.
(a b)(c d)(a c)(b d)
3.独立性检验 利用独立性假设、随机变量K2来确定是否有一定把握认为“两个分类变 量有关系”的方法称为两个分类变量的独立性检验. 两个分类变量X和Y是否有关系的判断标准: 统计学研究表明:当K2≤3.841时,认为X与Y无关; 当K2>3.841时,有95%的把握说X与Y有关; 当K2>6.635时,有99%的把握说X与Y有关; 当K2>10.828时,有99.9%的把握说X与Y有关.
变量间的相关关系与统计案例
变量间的相关关系与统计案例变量间的相关关系是统计学中一个重要的概念,它描述了两个或多个变量之间的关联程度。
在实际应用中,我们经常需要了解不同变量之间的相关性,以便更好地理解数据和进行预测分析。
本文将介绍变量间相关关系的基本概念,并通过统计案例来说明相关关系的计算和应用。
首先,我们需要了解相关系数的概念。
相关系数是衡量两个变量之间相关性强弱的统计指标,通常用于描述线性相关关系。
常见的相关系数有皮尔逊相关系数、斯皮尔曼相关系数和判定系数等。
其中,皮尔逊相关系数用于衡量两个连续变量之间的线性相关性,取值范围为-1到1,其绝对值越接近1,表示相关性越强。
接下来,我们通过一个实际的统计案例来说明相关系数的计算和应用。
假设我们对某公司员工的工作满意度和工作绩效进行了调查,现在我们希望了解这两个变量之间的相关关系。
我们首先收集了员工的工作满意度得分和绩效评价得分,然后计算了它们之间的皮尔逊相关系数。
假设计算结果为0.8,这意味着工作满意度和工作绩效之间存在较强的正相关关系,即工作满意度较高的员工通常也具有较好的工作绩效。
在实际应用中,相关系数的计算可以帮助我们了解变量之间的关联程度,从而指导决策和预测分析。
例如,在人力资源管理中,我们可以通过工作满意度和绩效之间的相关关系来评估员工的工作状态,制定相应的激励和管理策略。
在市场营销中,我们可以分析产品销量与广告投入之间的相关关系,从而优化营销策略和预测销售额。
除了了解相关系数的计算和应用,我们还需要注意相关关系的解释和局限性。
相关系数只能描述两个变量之间的线性相关关系,对于非线性关系或者其他类型的相关关系,相关系数可能无法准确描述。
因此,在实际应用中,我们需要结合具体情况,综合考虑多个统计指标和数据特征,以全面理解变量间的相关关系。
综上所述,变量间的相关关系是统计学中一个重要的概念,相关系数的计算和应用可以帮助我们了解变量之间的关联程度,指导决策和预测分析。
然而,我们需要注意相关关系的解释和局限性,以便更准确地理解数据和进行统计分析。
11、变量间的相关关系、统计案例(有答案)解读
学科教师辅导教案学员编号: 年 级:高一 课时数:3课时 学员姓名: 辅导科目:数学 学科教师:授课类型 T 同步知识梳理 C 相关专题训练T 能力提高教学目标星级★★★授课日期及时段 2016.教学内容 :变量间的相关关系、统计案例一、同步知识梳理 1. 变量间的相关关系2. 散点图以一个变量的取值为横坐标,另一个变量的相应取值为纵坐标,在直角坐标系中描点,这样的图形叫做散点图. 3. 回归直线方程与回归分析(1)直线方程y ^=a +bx ,叫做Y 对x 的回归直线方程,b 叫做回归系数.要确定回归直线方程,只要确定a 与回归系数b .(2)用最小二乘法求回归直线方程中的a ,b 有下列公式b ^=∑ni =1x i y i -n x y ∑ni =1x 2i -n x 2,a ^ =y -b ^ x ,其中的a ^ ,b ^表示是求得的a ,b 的估计值.(3)相关性检验①计算相关系数r ,r 有以下性质:|r |≤1,并且|r |越接近1,线性相关程度越强;|r |越接近0,线性相关程度越弱;②|r|>r0.05,表明有95%的把握认为变量x与Y直线之间具有线性相关关系,回归直线方程有意义;否则寻找回归直线方程毫无意义.二、题型解答题型一相关关系的判断思维点播判断变量之间有无相关关系,一种简便可行的方法就是绘制散点图,根据散点图很容易看出两个变量之间是否具有相关性,是不是存在线性相关关系,是正相关还是负相关,相关关系是强还是弱.例15个学生的数学和物理成绩如下表:学生A B C D E学科数学8075706560物理7066686462画出散点图,并判断它们是否具有相关关系.解以x轴表示数学成绩,y轴表示物理成绩,可得到相应的散点图如图所示.由散点图可知,各组数据对应点大致在一条直线附近,所以两者之间具有相关关系,且为正相关.巩固(1)对变量x,y有观测数据(x i,y i)(i=1,2,…,10),得散点图①;对变量u,v有观测数据(u i,v i)(i=1,2,…,10),得散点图②,由这两个散点图可以判断()A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关答案 C(2)(2012·课标全国)在一组样本数据(x1,y1),(x2,y2),…,(x n,y n)(n≥2,x1,x2,…,x n不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0 C.12 D .1答案 D解析 利用相关系数的意义直接作出判断.样本点都在直线上时,其数据的估计值与真实值是相等的,即y i =y i ^,代入相关系数公式r =1-∑i =1n(y i -y i ^)2∑i =1n(y i -y )2=1.题型二 线性回归分析思维点播 (1)回归直线方程y ^=b ^x +a ^必过样本点的中心(x ,y ).(2)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过回归直线方程估计和预测变量的值.例2 某车间为了制定工时定额,需要确定加工零件所花费的时间,为此做了四次试验,得到的数据如下:零件的个数x (个) 2 3 4 5 加工的时间y (小时)2.5344.5(1)在给定的坐标系中画出表中数据的散点图;(2)求出y 关于x 的回归直线方程y ^=b ^x +a ^,并在坐标系中画出回归直线; (3)试预测加工10个零件需要多少小时?(注:b^=∑i=1nx i y i-n x y∑i=1nx2i-n x2,a^=y-b^x)思维启迪求回归直线方程的系数b^时,为防止出错,应分别求出公式中的几个量,再代入公式.解(1)散点图如图.(2)由表中数据得:∑i=14x i y i=52.5,x=3.5,y=3.5,∑i=14x2i=54,∴b^=0.7,∴a^=1.05,∴y^=0.7x+1.05,回归直线如图所示.(3)将x=10代入回归直线方程,得y^=0.7×10+1.05=8.05,故预测加工10个零件约需要8.05小时.巩固1为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x(单位:小时)与当天投篮命中率y之间的关系:时间x 1234 5命中率y 0.40.50.60.60.4小李这5天的平均投篮命中率为________;用线性回归分析的方法,预测小李该月6号打6小时篮球的投篮命中率为________.答案0.50.53解析小李这5天的平均投篮命中率y=0.4+0.5+0.6+0.6+0.45=0.5,可求得小李这5天的平均打篮球时间x=3.根据表中数据可求得b^=0.01,a^=0.47,故回归直线方程为y^=0.47+0.01x,将x=6代入得6号打6小时篮球的投篮命中率约为0.53.巩 固2 (2013·大连模拟)某产品的广告费用x 与销售额y 的统计数据如下表:广告费用x (万元) 4 2 3 5 销售额y (万元)49263954根据上表可得回归直线方程y ^=b ^x +a ^中的b ^为9.4,据此模型预报广告费用为6万元时销售额为( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元答案 B解析 ∵x =4+2+3+54=72,y =49+26+39+544=42,又y ^ =b ^ x +a ^ 必过(x ,y ),∴42=72×9.4+a ^ ,∴a ^ =9.1.∴回归直线方程为y ^ =9.4x +9.1.∴当x =6时,y ^=9.4×6+9.1=65.5(万元).家庭作业1. 某地区调查了2~9岁的儿童的身高,由此建立的身高y (cm)与年龄x (岁)的回归模型为y ^=8.25x +60.13,下列叙述正确的是( )A .该地区一个10岁儿童的身高为142.63 cmB .该地区2~9岁的儿童每年身高约增加8.25 cmC .该地区9岁儿童的平均身高是134.38 cmD .利用这个模型可以准确地预算该地区每个2~9岁儿童的身高 答案 B2. 设(x 1,y 1),(x 2,y 2),…,(x n ,y n )是变量x 和y 的n 个样本点,直线l 是由这些样本点通过最小二乘法得到的线性回归直线(如图), 以下结论中正确的是 ( )A .直线l 过点(x ,y )B .x 和y 的相关系数为直线l 的斜率C .x 和y 的相关系数在0到1之间D .当n 为偶数时,分布在l 两侧的样本点的个数一定相同 答案 A解析 因为相关系数是表示两个变量是否具有线性相关关系的一个值,它的绝对值越接近1,两个变量的线性相关程度越强,所以B 、C 错误.D 中n 为偶数时,分布在l 两侧的样本点的个数可以不相同,所以D 错误.根据线性回归直线一定经过样本点中心可知A 正确.3. (2012·湖南)设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确...的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg 答案 D解析 由于回归直线方程中x 的系数为0.85, 因此y 与x 具有正的线性相关关系,故A 正确.又回归直线方程必过样本点中心(x ,y ),因此B 正确.由回归直线方程中系数的意义知,x 每增加1 cm ,其体重约增加0.85 kg ,故C 正确. 当某女生的身高为170 cm 时,其体重估计值是58.79 kg ,而不是具体值,因此D 不正确.4. 某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y ^=0.67x +54.9.零件数x (个) 10 2030 40 50 加工时间y (min)62758189现发现表中有一个数据看不清,请你推断出该数据的值为________. 答案 68解析 由已知可计算求出x =30,而回归直线必过点(x ,y ), 则y =0.67×30+54.9=75,设模糊数字为a ,则 a +62+75+81+895=75,计算得a =68.5.某产品的广告费用x 与销售额y 的统计数据如下表:广告费用x (万元) 4 2 3 5 销售额y (万元)49263954根据上表可得回归方程y ^=b ^x +a ^中的b ^为9.4,据此模型预报广告费用为6万元时销售额为( ) A.63.6万元 B.65.5万元 C.67.7万元D.72.0万元解析:由题意可知x =3.5,y =42,则42=9.4×3.5+a ^,a ^=9.1,y ^=9.4×6+9.1=65.5,答案应选B. 答案:A6.下列各图中所示两个变量具有相关关系的是( )A .①②B .①③C .②④D .②③答案:D7.已知x ,y 的取值如下表所示:x 0 1 3 4 y2.24.34.86.7从散点图分析,y 与x 线性相关,且y ^=0.95x +a ^,则a ^=__________.答案:2.6。
考点51 变量间的相关关系与统计案例
考点五十一 变量间的相关关系与统计案例知识梳理1.相关关系常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系.两者的区别是函数关系是一种确定的关系,而相关关系是一种非确定的关系,函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系. 2.散点图通常将变量所对应的点描出来,这些点就组成了变量之间的一个图,通常称这种图为变量之间的散点图. 3.正相关与负相关从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关. 4.回归直线方程 (1)曲线拟合从散点图上,如果变量之间存在某种关系,这些点会有一个集中的大致趋势,这种趋势通常可以用一条光滑的曲线来近似,这样的近似过程称为曲线拟合. (2)线性相关在两个变量x 和y 的散点图中,若所有点看上去都在一条直线附近波动,则称变量间是线性相关,这条直线叫回归直线.若所有点看上去都在某条曲线(不是一条直线)附近波动,称此相关是非线性相关.如果所有的点在散点图中没有显示任何关系,则称变量间是不相关的. (3)最小二乘法如果有n 个点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),可以用[y 1-(a +bx 1)]2+[y 2-(a +bx 2)]2+…+[y n -(a +bx n )]2来刻画这些点与直线y =a +bx 的接近程度,使得上式达到最小值的直线y =a +bx 就是所要求的直线,这种方法称为最小二乘法. (4)回归方程方程y =bx +a 是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ,b 是待定参数. ⎩⎪⎨⎪⎧b =∑n i =1(x i-x )(y i-y )∑ni =1(x i-x )2=∑ni =1x i y i -n x y ∑ni =1x 2i -n x 2,a =y -b x .说明:回归直线必过样本中心(x,y),但是样本数据不一定在回归直线上,甚至可能所有的样本数据点都不在直线上.5.相关系数相关系数r=∑ni=1(x i-x)(y i-y)∑ni=1(x i-x)2∑ni=1(y i-y)2=∑ni=1x i y i-n x y(∑ni=1x2i-n x2)(∑ni=1y2i-n y2);当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.6.独立性检验设A,B为两个变量,每一个变量都可以取两个值,变量A:A1,A2=A1;变量B:B1,B2=B1;2×2列联表:构造一个随机变量χ2=n(ad-bc)(a+b)(c+d)(a+c)(b+d).利用随机变量χ2来判断“两个分类变量有关系”的方法称为独立性检验.当χ2≤2.706时,没有充分的证据判定变量A,B有关联;当χ2>2.706时,有90%的把握判定变量A,B有关联;当χ>3.841时,有95%的把握判定变量A,B有关联;当χ>6.635时,有99%的把握判定变量A,B有关联.典例剖析题型一相关关系判断例1变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则________.①r2<r1<0 ②0<r2<r1③r2<0<r1④r2=r1答案③解析 对于变量Y 与X 而言,Y 随X 的增大而增大,故Y 与X 正相关,即r 1>0;对于变量V 与U 而言,V 随U 的增大而减小,故V 与U 负相关,即r 2<0,所以有r 2<0<r 1.变式训练 四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648; ③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是________. 答案 ①④解析 由回归直线方程y ^=b ^x +a ^,知当b ^>0时,x 与y 正相关,当b ^<0时,x 与y 负相关,所以①④一定错误.解题要点 判断变量之间有无相关关系,一种简便可行的方法就是绘制散点图,根据散点图很容易看出两个变量之间是否具有相关性,是不是存在线性相关关系,是正相关还是负相关,相关关系是强还是弱. 题型二 回归分析例2 已知x ,y 取值如下表:从所得的散点图分析可知:y 与x 线性相关,且y =0.95x +a ,则a =________. 答案 1.45解析 ∵x =0+1+4+5+6+86=4,y =1.3+1.8+5.6+6.1+7.4+9.36=5.25,又y ^=0.95x +a 过(x ,y ),∴5.25=0.95×4+a ,得a =1.45. 变式训练 已知x 与y 之间的一组数据:已求得关于y 与x 的线性回归方程y =2.1x +0.85,则m 的值为________. 答案 0.5解析 x =0+1+2+34=32,y =m +3+5.5+74=15.5+m4,把(x ,y )代入线性回归方程,15.5+m 4=2.1×32+0.85,m =0.5. 解题要点 回归直线方程y ^=b ^x +a ^必过样本点中心(x ,y ).利用这一结论,可以快速求出回归方程中的参数.例3 下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据.(1)(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤,试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3×2.5+4×3+5×4+6×4.5=66.5) 解析 (1)由题意,作散点图如图.(2)由对照数据,计算得∑i =14x i y i =66.5,∑i =14x 2i =32+42+52+62=86,x =4.5,y =3.5,b ^=66.5-4×4.5×3.586-4×4.52=66.5-6386-81=0.7,a ^=y -b ^x =3.5-0.7×4.5=0.35, 所以回归方程为y ^=0.7x +0.35.(3)当x =100时,y =100×0.7+0.35=70.35(吨标准煤),预测生产100吨甲产品的生产能耗比技改前降低90-70.35=19.65(吨标准煤).变式训练 (2015新课标Ⅰ文)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的宣传费i x 和年销售量()1,2,,8i y i =数据作了初步处理,得到下面的散点图及一些统计量的值.5452504846444240表中w i =x i ,w =18∑i =18w i .(I)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(II)根据(I)的判断结果及表中数据,建立y 关于x 的回归方程;(III)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(II)的结果回答下列问题: (i )当年宣传费90x =时,年销售量及年利润的预报值时多少? (ii )当年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑i =1n(u i -u )(v i -v )∑i =1n(u i -u )2,α^=v -β^u .解析 (I)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(II)令w =x ,先建立y 关于w 的线性回归方程,由于d ^=∑i =18(w i -w )·(y i -y )∑i =18(w i -w )2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x 的回归方程为y ^=100.6+68x .(III)(i )由(II)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6,年利润z 的预报值z ^=576.6×0.2-49=66.32.(ii )根据(II)的结果知,年利润z 的预报值z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.解题要点 (1)正确运用计算b ,a 的公式和准确的计算,是求线性回归方程的关键. (2)分析两变量的相关关系,可由散点图作出判断,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.(3) 求解回归方程关键是确定回归系数a ^,b ^,因求解b ^的公式计算量太大,一般题目中给出相关的量,如x -,y -,i =1∑n,i =1)x 2i ,i =1∑n,i =1)x i y i 等,便可直接代入求解.充分利用回归直线过样本中心点(x -,y -),即有y =b ^x -+a ^,可确定a ^. 题型三 相关分析例4 有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:已知在全部105人中随机抽取1人,成绩优秀的概率为27,则下列说法正确的是________.① 列联表中c 的值为30,b 的值为35 ② 列联表中c 的值为15,b 的值为50 ③根据列联表中的数据,若按95%的可靠性要求,能认为“成绩与班级有关系”④根据列联表中的数据,若按95%的可靠性要求,不能认为“成绩与班级有关系” 答案 ③解析 由题意知,成绩优秀的学生数是30,成绩非优秀的学生数是75,所以c =20,b =45,选项A 、B 错误.根据列联表中的数据,得到χ2=2105(10302045)55503075⨯⨯-⨯⨯⨯⨯≈6.109>3.841,因此有95%的把握认为“成绩与班级有关系”.变式训练 在研究色盲与性别的关系调查中,调查了男性480人,其中有38人患色盲,调查的520名女性中,有6人患色盲. (1)根据以上数据建立一个2×2列联表;(2)若认为“性别与患色盲有关系”,求出错的概率. 解析 (1)2×2列联表如下:(2)0χ2=1 000×(38×514-6×442)2480×520×44×956≈27.14,又P (χ2≥10.828)=0.001,即H 0成立的概率不超过0.001,故若认为“性别与患色盲有关系”,则出错的概率为0.1%.解题要点 (1)独立性检验的关键是正确列出2×2列联表,并计算出χ2的值.(2)弄清判断两变量有关的把握性与犯错误概率的关系,根据题目要求作出正确的回答.当堂练习1.(2015湖北文)已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是________.①x 与y 正相关,x 与z 负相关 ②x 与y 正相关,x 与z 正相关 ③x 与y 负相关,x 与z 负相关 ④x 与y 负相关,x 与z 正相关 答案 ③解析 因为y =-0.1x +1,-0.1<0,所以x 与y 负相关.又y 与z 正相关,故可设z =ay +b (a >0),所以z =-0.1ax +a +b ,-0.1a <0,所以x 与z 负相关. 2.(2014·湖北卷) 根据如下样本数据得到的回归方程为y =bx +a ,则________.①a >0,b <0 ②a >0,b >0 ③a <0,b <0 ④a <0,b >0 答案 ①解析 作出散点图如下:由图象不难得出,回归直线y ^=bx +a 的斜率b <0,截距a >0,所以a >0,b <0. 3. 通过随机询问110名大学生是否爱好某项运动,得到如下列联表:由K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),得K 2=110×(40×30-20×20)260×50×60×50≈7.8.附表:参照附表,得到的正确结论是________.① 有99%以上的把握认为“爱好该项运动与性别有关” ② 有99%以上的把握认为“爱好该项运动与性别无关”③ 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关” ④ 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关” 答案 ①解析 因为7.8>6.635,所以选项①正确.4.下列有关样本相关系数的说法不正确的是________.①相关系数用来衡量变量x 与y 之间的线性相关程度 ②|r |≤1,且|r |越接近于1,相关程度越大 ③|r |≤1,且|r |越接近0,相关程度越小 ④|r |≥1,且|r |越接近1,相关程度越小 答案 ④5.两个相关变量满足如下关系:答案 y ∧=0.56x +997.4解析 回归直线经过样本中心点(20,1 008.6),经检验只有选项A 符合题意.课后作业一、 填空题1.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为_____. 答案 1解析 根据相关系数的定义可知,当所有样本点都在直线上时,相关系数为1.2.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y =0.85x -85.71,则下列结论中不正确...的是______. ①y 与x 具有正的线性相关关系 ②回归直线过样本点的中心(x ,y )③若该大学某女生身高增加1cm ,则其体重约增加0.85kg ④若该大学某女生身高为170cm ,则可断定其体重必为58.79kg 答案 ④解析 由回归方程为y =0.85x -85.71知y 随x 的增大而增大,所以y 与x 具有正的线性相关关系,由最小二乘法建立的回归方程得过程知ˆ()ybx a bx y bx a y bx =+=+-=-,所以回归直线过样本点的中心(x ,y ),利用回归方程可以预测估计总体,所以④不正确.3.(2015新课标II文)根据下面给出的2004年至2013年我国二氧化硫排放量(单位:万吨)柱形图.以下结论不正确...的是________.①逐年比较,2008年减少二氧化硫排放量的效果最显著②2007年我国治理二氧化硫排放显现成效③2006年以来我国二氧化硫年排放量呈减少趋势④2006年以来我国二氧化硫年排放量与年份正相关答案④解析从2006年,将每年的二氧化硫排放量与前一年作差比较,得到2008年二氧化硫排放量与2007年排放量的差最大,①选项正确;2007年二氧化硫排放量较2006年降低了很多,②选项正确;虽然2011年二氧化硫排放量较2010年多一些,但自2006年以来,整体呈递减趋势,即③选项正确;自2006年以来我国二氧化硫年排放量与年份负相关,④选项错误,故选④.4.下面是一个2×2列联表其中a,b处填的值分别为答案5274解析由a+21=73,得a=52,a+22=b,得b=74.5.为了研究高中学生对乡村音乐的态度(喜欢和不喜欢两种态度)与性别的关系,运用2×2列联表进行独立性检验,经计算K2=8.01,则认为“喜欢乡村音乐与性别有关系”的把握性约为________.答案99%解析因为K2=8.01>6.635,所以有99%以上的把握认为“喜欢乡村音乐与性别有关系”.6.下表提供了某厂节能降耗技术改造后在生产A 产品过程中记录的产量x (吨)与相应的生产能耗y (吨)的几组对应数据:根据上表提供的数据,求出y 关于x 的线性回归方程为y =0.7x +0.35,那么表中t 的值为________. 答案 3解析 由y =0.7x +0.35得2.5+t +4+4.54=0.7×3+4+5+64+0.35⇒11+t 4=3.5⇒t =3.7.(2014·江西卷)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是________.表1 表2表3 表4答案 阅读量解析 通过计算可得,表1中的χ2≈0.009,表2中的χ2≈1.769,表3中的χ2=1.300,表4中的χ2≈23.481.8.已知某车间加工零件的个数x 与所花费时间y (h)之间的线性回归方程为y ^=0.01x +0.5,则加工600个零件大约需要的时间为________. 答案 6.5 h解析 将600代入线性回归方程y ^=0.01x +0.5中得需要的时间为6.5 h.9.为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如下2×2列联表:已知P (K 2≥3.841)≈0.05,根据表中数据,得到K 2的观测值k =50×(13×20-10×7)223×27×20×30≈4.844,则认为选修文科与性别有关系出错的可能性约为________. 答案 5%解析 由K 2的观测值k ≈4.844>3.841,故认为选修文科与性别有关系出错的可能性约为5%. 10.考古学家通过始祖鸟化石标本发现:其股骨长度x (cm)与肱骨长度y (cm)的线性回归方程为y ^=1.197x -3.660,由此估计,当股骨长度为50 cm 时,肱骨长度的估计值为________cm. 答案 56.19解析 根据回归方程y ^=1.197x -3.660,将x =50代入,得y =56.19,则肱骨长度的估计值为56.19 cm.11.已知回归直线的斜率的估计值为1.23,样本点的中心为(4,5),则回归直线的回归方程为________.答案 y ^=1.23x +0.08解析 设回归直线方程为y ^=1.23x +a ,由题意得:5=1.23×4+a ,得a =0.08,故回归方程为y ^=1.23x +0.08. 二、解答题12. (2013·重庆文)从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,算得∑i =110x i =80,∑i =110y i =20,∑i =110x i y i =184,∑i =110x 2i =720.(1)求家庭的月储蓄y 对月收入x 的线性回归方程y =bx +a ; (2)判断变量x 与y 之间是正相关还是负相关;(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄. 附:线性回归方程y =bx +a 中,b =∑i =1nx i y i -n x y ∑i =1nx 2i -n x2,a =y -b x ,其中x -,y -为样本平均值,线性回归方程也可写为y ∧=b ∧x +a ∧.解析 (1)由题意知n =10,x =1n ∑i =110x i =8010=8,y =1n ∑i =110y i =2010=2,又∑i =110x 2i -n x 2=720-10×82=80, ∑i =110x i y i -n x y =184-10×8×2=24,由此得b =∑i =110x i y i -n x y∑i =110x 2i -n x2=2480=0.3, a =y -b x =2-0.3×8=-0.4,故所求回归方程为y ∧=0.3x -0.4.(2)由于变量y 的值随x 的值增加而增加(b =0.3>0),故x 与y 之间是正相关. (3)将x =7代入回归方程可以预测该家庭的月储蓄约为y =0.3×7-0.4=1.7千元. 13.近年空气质量逐步恶化,雾霾天气现象出现增多,大气污染危害加重,大气污染可引起心悸,呼吸困难等心肺疾病,为了解某市心肺疾病是否与性别有关,在某医院随机对入院50人进行了问卷调查,得到了如下的列联表.(1)(2)为了研究心肺疾病是否与性别有关,请计算出统计量K2,并回答有多大把握认为心肺疾病与性别有关?参考公式:K2=n(ad-bc)(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.解析(1)在患心肺疾病人群中抽6人,则抽取比例为630=15,∴男性应该抽取20×15=4人.(2)∵K2≈8.333,且P(K2≥7.879)=0.005=0.5%,所以有99.5%的把握认为患心肺疾病与性别有关系.。
变量间的相关关系与统计案例
变量间的相关关系与统计案例在统计学中,变量之间的相关关系是一个非常重要的概念。
通过分析变量之间的相关关系,我们可以更好地理解数据之间的联系,为进一步的分析和预测提供基础。
本文将通过一些统计案例,介绍变量间相关关系的概念,并通过实际数据进行分析,帮助读者更好地理解相关关系的含义及其在实际应用中的重要性。
首先,我们需要了解什么是变量间的相关关系。
在统计学中,变量之间的相关关系是指它们之间存在的某种关联或者依存关系。
这种关系可以是正向的,也可以是负向的。
正向的相关关系意味着两个变量的数值同时增加或减少,负向的相关关系则表示一个变量的数值增加时,另一个变量的数值减少。
通过相关系数的计算,我们可以量化这种相关关系的强度和方向。
接下来,我们通过一个实际的统计案例来说明变量间相关关系的应用。
假设我们有一组数据,包括了某个城市每月的平均气温和冰淇淋销量。
我们想要分析气温和冰淇淋销量之间是否存在相关关系。
首先,我们可以通过散点图来观察两个变量之间的关系。
如果散点图呈现出一种明显的趋势,那么说明两个变量之间可能存在相关关系。
接着,我们可以通过计算相关系数来量化这种关系的强度。
最常用的相关系数是皮尔逊相关系数,它的取值范围在-1到1之间,绝对值越接近1,表示两个变量之间的相关关系越强。
在这个案例中,我们发现气温和冰淇淋销量之间存在着正向的相关关系。
也就是说,随着气温的升高,冰淇淋销量也会增加。
这个发现对于冰淇淋生产商来说是非常有用的信息,他们可以根据气温的变化来调整生产和销售策略,以更好地满足消费者的需求。
除了正向的相关关系,我们还可以遇到负向的相关关系。
比如,一个城市的降雨量和游乐园的游客数量之间可能存在负向的相关关系。
这意味着降雨量增加时,游客数量会减少。
这对于游乐园的经营者来说也是非常重要的信息,他们可以根据天气预报来调整营销策略,以减少降雨天对游客数量的影响。
通过以上案例,我们可以看到,变量间的相关关系在实际应用中具有非常重要的意义。
高考数学-第九章 §9.2 变量间的相关关系、统计案例
变量间的相关关系、统计案例考试要求 1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.3.了解独立性检验的基本思想、方法及其初步应用.4.了解回归分析的基本思想、方法及其简单应用.1.相关关系与回归方程 (1)相关关系的分类 ①正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关. ②负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (2)线性相关关系如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. (3)回归方程 ①最小二乘法求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法. ②回归方程方程y ^=b ^x +a ^是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ^,b ^是待定参数.⎩⎪⎨⎪⎧b ^=∑i =1n(x i-x )(y i-y )∑i =1n(x i-x )2=∑i =1nx i y i-n x y ∑i =1nx 2i-n x 2,a ^=y -b ^x .(4)回归分析①定义:对具有相关关系的两个变量进行统计分析的一种常用方法.②样本点的中心对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(x n,y n),其中(x,y)称为样本点的中心.③相关系数当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于时,认为两个变量有很强的线性相关性.2.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为2×2列联表y1y2总计x1a b a+bx2c d c+d总计a+c b+d a+b+c+d构造一个随机变量K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d为样本容量.(3)独立性检验:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.微思考1.变量的相关关系与变量的函数关系有什么区别?提示相同点:两者均是指两个变量的关系.不同点:①函数关系是一种确定的关系,相关关系是一种非确定的关系.②函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.2.线性回归方程是否都有实际意义?根据回归方程进行预报是否一定准确?提示(1)不一定都有实际意义.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.(2)根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.题组一 思考辨析1.判断下列结论是否正确(请在括号中打“√”或“×”)(1)散点图是判断两个变量相关关系的一种重要方法和手段.( √ )(2)回归直线y ^=b ^x +a ^至少经过点(x 1,y 1),(x 2,y 2),…,(x n ,y n )中的一个点.( × ) (3)相关系数的绝对值越接近1,样本数据的线性相关程度越强.( √ )(4)若事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越小.( × ) 题组二 教材改编2.下列四个散点图中,变量x 与y 之间具有负的线性相关关系的是( )答案 D解析 观察散点图可知,只有D 选项的散点图表示的是变量x 与y 之间具有负的线性相关关系.3.下面是2×2列联表:y 1 y 2 总计 x 1 a 21 73 x 2 22 25 47 总计b46120则表中a ,b 的值分别为( ) A .94,72 B .52,50 C .52,74 D .74,52答案 C解析 ∵a +21=73,∴a =52. 又a +22=b ,∴b =74.4.已知x ,y 的对应取值如下表,从散点图可以看出y 与x 线性相关,且线性回归方程为y ^=x +a ^,则a ^等于( )B .C .D .0 答案 B解析 回归直线过点(2,), ∴=×2+a ^, ∴a ^=2.6. 题组三 易错自纠5.在统计中,由一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )利用最小二乘法得到两个变量的回归方程为y ^=b ^x +a ^,那么下列说法不正确的是( ) A .相关系数r 不可能等于1B .回归直线y ^=b ^x +a ^必经过点(x ,y )C .回归直线y ^=b ^x +a ^表示最接近y 与x 之间真实关系的一条直线D .相关系数为r ,且|r |越接近1,样本数据的线性相关程度越强;|r |越接近0,样本数据的线性相关程度越弱 答案 A解析 相关系数的取值范围是|r |≤1,故A 错;回归直线y ^=b ^x +a ^必过样本点的中心,即点(x ,y ),故B 正确;回归直线y ^=b ^x +a ^是利用最小二乘法求解出的直线方程,接近真实关系,故C 正确;相关系数r 的绝对值越接近1,表示样本数据的线性相关程度越强,越接近0,样本数据的线性相关程度越弱,故D 正确.6.随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样的方法从不同地区调查了100位育龄妇女,结果如下表.由K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),得K 2=100×(45×22-20×13)258×42×35×65≈9.616.参照下表:P (K 2≥k 0)k 0正确的结论是( A .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关” B .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关” C .有99%以上的把握认为“生育意愿与城市级别有关” D .有99%以上的把握认为“生育意愿与城市级别无关” 答案 C题型一 相关关系的判断1.(2021·昆明诊断)某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:月份 1 2 3 4 5 6 人均销售额 6 5 8 3 4 7 利润率(%)根据表中数据,下列说法正确的是( ) A .利润率与人均销售额成正相关关系 B .利润率与人均销售额成负相关关系 C .利润率与人均销售额成正比例函数关系 D .利润率与人均销售额成反比例函数关系 答案 A解析 由统计表可得利润率与人均销售额不是正比例关系,也不是反比例关系,排除C 和D ;其属于正相关关系,A 正确,B 错误.2.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3答案 A解析 由散点图知图(1)与图(3)是正相关,故r 1>0,r 3>0,图(2)与图(4)是负相关,故r 2<0,r 4<0,且图(1)与图(2)的样本点集中在一条直线附近,因此r 2<r 4<0<r 3<r 1,故选A.3.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =-12x +1上,则这组样本数据的样本相关系数为( ) A .-1 B .0 C .-12D .1答案 A4.已知变量x 和y 满足关系y ^=-x +1,变量y 与z 正相关.下列结论中正确的是( ) A .x 与y 正相关,x 与z 负相关 B .x 与y 正相关,x 与z 正相关 C .x 与y 负相关,x 与z 负相关 D .x 与y 负相关,x 与z 正相关 答案 C解析 因为y ^=-x +1,-0.1<0,所以x 与y 负相关.又y 与z 正相关,故可设z ^=b ^y +a ^(b ^>0),所以z ^=-b ^x +b ^+a ^,-b ^<0,所以x 与z 负相关.故选C. 思维升华 判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:当r >0时,两个变量正相关;当r <0时,两个变量负相关. (3)线性回归方程:当b ^>0时,两个变量正相关;当b ^<0时,两个变量负相关.题型二 回归分析命题点1 线性回归分析例1 (2020·福州模拟)随着我国中医学的发展,药用昆虫的使用愈来愈多.每年春暖以后至寒冬前,昆虫大量活动与繁殖,易于采集各种药用昆虫.已知一只药用昆虫的产卵数y (单位:个)与一定范围内的温度x (单位:℃)有关,于是科研人员在3月份的31天中随机挑选了5天进行研究,现收集了该种药用昆虫的5组观测数据如下表:日期 2日 7日 15日 22日 30日 温度x /℃ 10 11 13 12 8 产卵数y /个2325302616科研人员确定的研究方案是:先从这5组数据中任选2组,用剩下的3组数据建立y 关于x 的线性回归方程,再对被选取的2组数据进行检验.(1)若选取的是3月2日与30日这2组的数据,请根据3月7日、15日和22日这3组的数据,求出y 关于x 的线性回归方程;(2)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2个,则认为得到的线性回归方程是可靠的,试问(1)中所得的线性回归方程是否可靠? 解 (1)由已知数据得x =12,y =27,∑i =13 (x i -x )(y i -y )=5,∑i =13(x i -x )2=2,所以b ^=∑i =13(x i -x )(y i -y )∑i =13(x i -x )2=52,a ^=y -52x =27-52×12=-3.所以y 关于x 的线性回归方程为y ^=52x -3.(2)由(1)知,y 关于x 的线性回归方程为y ^=52x -3.当x =10时,y ^=52×10-3=22,|22-23|<2,当x =8时,y ^=52×8-3=17,|17-16|<2.所以(1)中所得的线性回归方程y ^=52x -3是可靠的.命题点2 非线性回归分析例2 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响,对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)的数据作了初步处理,得到下面的散点图及一些统计量的值.x y w ∑i =18(x i -x)2 ∑i =18(w i -w)2 ∑i =18(x i -x )·(y i -y )∑i =18(w i -w )·(y i -y )5631 469表中w i =x i ,w =18∑i =18w i .(1)根据散点图判断y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v ^=α^+β^u 的斜率和截距的最小二乘估计分别为β^=∑i =1n(u i -u )(v i -v )∑i =1n(u i -u )2,α^=v -β^u .解 (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型. (2)令w =x ,先建立y 关于w 的线性回归方程,由于d ^=∑i =18(w i -w )·(y i -y )∑i =18(w i -w )2==68,c ^=y -d ^w =563-68×=,所以y 关于w 的线性回归方程为y ^=+68w , 因此y 关于x 的回归方程为y ^=+68x . (3)①由(2)知,当x =49时, 年销售量y 的预报值y ^=+6849=, 年利润z 的预报值z ^=×-49=66.32. ②根据(2)的结果知,年利润z 的预报值 z ^=(+68x )-x =-x +x +20.12. 所以当x =2=,即x =时,z ^取得最大值.故年宣传费为千元时,年利润的预报值最大. 思维升华 回归分析问题的类型及解题方法 (1)求回归方程①根据散点图判断两变量是否线性相关,如不是,应通过换元构造线性相关. ②利用公式,求出回归系数b ^.③待定系数法:利用回归直线过样本点的中心求系数a ^.(2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值.(3)利用回归直线判断正、负相关,决定正相关还是负相关的是系数b ^.(4)回归方程的拟合效果,可以利用相关系数判断,当|r |越趋近于1时,两变量的线性相关性越强.跟踪训练1 (2020·全国Ⅱ)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(x i ,y i )(i =1,2,…,20),其中x i 和y i 分别表示第i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得∑i =120x i =60,∑i =120y i =1 200,∑i =120(x i -x )2=80,∑i =120(y i -y)2=9 000,∑i =120 (x i -x )(y i -y )=800.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(x i ,y i )(i =1,2,…,20)的相关系数(精确到);(3)根据现有统计资料,各地块间植物覆盖面积差异很大,为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:相关系数r =∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2∑i =1n(y i -y )2,2≈1.414.解 (1)由已知得样本平均数为y =120∑i =120y i =60,从而该地区这种野生动物数量的估计值为 60×200=12 000.(2)样本(x i ,y i )(i =1,2,…,20)的相关系数为r =∑i =120(x i -x )(y i -y )∑i =120(x i -x)2∑i =120(y i -y )2=80080×9 000=223≈0.94.(3)分层抽样,根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关关系.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.题型三独立性检验例3 (2020·湖北荆、荆、襄、宜四地七校联考)为积极响应国家“阳光体育运动”的号召,某学校在了解到学生的实际运动情况后,发起以“走出教室,走到操场,走到阳光”为口号的课外活动倡议.为调查该校学生每周平均体育运动时间的情况,从高一高二基础年级与高三三个年级学生中按照4∶3∶3的比例分层抽样,收集300位学生每周平均体育运动时间的样本数据(单位:小时),得到如图所示的频率分布直方图.(已知高一年级共有1 200名学生)(1)据图估计该校学生每周平均体育运动时间,并估计高一年级每周平均体育运动时间不足4小时的人数;(2)规定每周平均体育运动时间不少于6小时记为“优秀”,否则为“非优秀”,在样本数据中,有30位高三学生的每周平均体育运动时间不少于6小时,请完成下列2×2列联表,并判断是否有99%的把握认为“该校学生的每周平均体育运动时间是否‘优秀’与年级有关”.基础年级高三总计优秀非优秀总计300附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).参考数据:P(K2≥k0)解 (1)该校学生每周平均体育运动时间为x =1×+3×+5×+7×+9×+11×=5.8. 样本中高一年级每周平均体育运动时间不足4小时的人数为300×410××2+×2)=30(人).又样本中高一的人数有120人,所以估计高一年级每周平均体育运动时间不足4小时的人数约为1 200×30120=300(人).(2)列联表如下:假设该校学生的每周平均体育运动时间是否优秀与年级无关, 则K 2的观测值k =300×(105×60-105×30)2210×90×135×165=70099≈7.071>6.635.又P (K 2≥6.635)=0.01.所以有99%的把握认为“该校学生的每周平均体育运动时间是否‘优秀’与年级有关”. 思维升华 独立性检验的一般步骤 (1)根据样本数据制成2×2列联表.(2)根据公式K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )计算K 2的观测值k .(3)比较k 与临界值的大小关系,作统计推断.跟踪训练2 (2020·全国Ⅲ)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),解 (1)由频数分布表可知,该市一天的空气质量等级为1的概率为2+16+25100=;空气质量等级为2的概率为5+10+12100=;空气质量等级为3的概率为6+7+8100=;空气质量等级为4的概率为7+2+0100=0.09.(2)由频数分布表可知,一天中到该公园锻炼的平均人次的估计值为100×20+300×35+500×45100=350.(3)2×2列联表如下:空气质量好 33 37 空气质量不好228K 2=100×(33×8-37×22)255×45×70×30≈,所以有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.课时精练1.甲、乙、丙、丁四位同学各自对A ,B 两个变量的线性相关性做试验,并用回归分析方法分别求得相关系数r 与残差平方和m ,如下表:甲 乙 丙 丁 r m106115124103则哪位同学的试验结果体现A ,B 两个变量有更强的线性相关性?( ) A .甲 B .乙 C .丙 D .丁 答案 D解析 r 越大,m 越小,线性相关性越强,故选D. 2.根据如下样本数据:x 3 4 5 6 7 8 y得到线性回归方程为y ^=b ^x +a ^,则( ) A.a ^>0,b ^>0 B.a ^>0,b ^<0 C.a ^<0,b ^>0 D.a ^<0,b ^<0答案 B解析 根据给出的数据可发现:整体上y 与x 呈现负相关,所以b ^<0,由样本点(3,)及(4,)可知a ^>0.3.某公司由于改进了经营模式,经济效益与日俱增.统计了2018年10月到2019年4月的纯收益y (单位:万元)的数据,如下表:得到y 关于t 的线性回归方程为y ^=t +51.36.请预测该公司2019年6月的纯收益为( ) A .万元 B .万元 C .万元 D .万元 答案 C解析 将2019年6月代号t =11带入题中的线性回归方程,得y ^=×11+=103.61. 4.以下五个命题:①在匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量相关性越强,则相关系数的绝对值越接近于1; ③回归直线y ^=b ^x +a ^必过点(x ,y );④在线性回归方程y ^=x +12中,当解释变量x 每增加1个单位时,预报变量平均增加个单位; ⑤分类变量X 与Y ,对它们的随机变量K 2的观测值k 来说,k 越小,“X 与Y 有关系”的把握程度越大. 其中假命题为( )A .①④B .①⑤C .②③D .③④ 答案 B解析 ①为系统抽样;⑤分类变量X 与Y ,对它们的随机变量K 2的观测值k 来说,k 越大,“X 与Y 有关系”的把握程度越大.5.(多选)(2020·衡水中学调研)已知变量x ,y 之间的线性回归方程为y ^=-x +,且变量x ,y 之间的一组相关数据如下表所示,则下列说法正确的是( )A .变量x ,y 之间成负相关关系B .可以预测,当x =20时,y ^=- C .m =4 D .该回归直线必过点(9,4)答案 ABD解析 由-0.7<0,得变量x ,y 之间成负相关关系,故A 正确;当x =20时,y ^=-×20+=-,故B 正确;由表格数据可知x =14×(6+8+10+12)=9,y =14×(6+m +3+2)=11+m 4,则11+m 4=-×9+,解得m =5,故C 错误;由m =5,得y =6+5+3+24=4,所以该回归直线必过点(9,4),故D 正确.6.(多选)为了解户籍性别对生育二胎选择倾向的影响,某地从育龄人群中随机抽取了容量为100的调查样本,其中城镇户籍与农村户籍各50人,男性60人,女性40人,绘制了不同群体中倾向选择生育二胎与倾向选择不生育二胎的人数比例图(如图所示),其中阴影部分表示倾向选择生育二胎的对应比例,则下列叙述中正确的是( )A .是否倾向选择生育二胎与户籍有关B .是否倾向选择生育二胎与性别无关C .倾向选择生育二胎的人员中,男性人数与女性人数相同D .倾向选择不生育二胎的人员中,农村户籍人数少于城镇户籍人数 答案 ABD7.某市居民2016~2020年家庭年平均收入x (单位:万元)与年平均支出y (单位:万元)的统计资料如下表所示:年份 2016 2017 2018 2019 2020 收入x 13 15 支出y1012根据统计资料,家庭年平均收入与年平均支出有______相关关系.(填“正”或“负”) 答案 正解析 由相关性知识,根据统计资料可以看出,当年平均收入增多时,年平均支出也增多,因此两者之间具有正相关关系.8.经调查某地若干户家庭的年收入x (万元)和年饮食支出y (万元)具有线性相关关系,并得到y 关于x 的线性回归方程为y ^=x +,由线性回归方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元. 答案9.已知x ,y 之间的一组数据如下表:x23456y3 4 6 8 9对于表中数据,现给出如下拟合直线:①y =x +1;②y =2x -1;③y =85x -25;④y =32x .则根据最小二乘法的思想求得拟合程度最好的直线是__________.(填序号) 答案 ④解析 根据最小二乘法的思想得变量x 与y 间的线性回归直线必过点(x ,y ),由数据可知,x =2+3+4+5+65=4,y =3+4+9+6+85=6,那么必须过点(4,6),经验证可知,①y =x+1不成立;②y =2x -1不成立;③y =85x -25,当x =4时,y =6,当x =6时,y =;④y =32x ,当x =4时,y =6,当x =6时,y =9.综上,拟合程度最好的直线是④.10.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得线性回归方程为y ^=x +54.9.零件数x (个) 10 2030 40 50 加工时间y (min)62758189现发现表中有一个数据看不清,请你推断出该数据的值为________. 答案 68解析 由x =30,得y =×30+=75.设表中的“模糊数字”为a ,则62+a +75+81+89=75×5,∴a =68.11.根据统计,某蔬菜基地西红柿亩产量的增加量y (百千克)与某种液体肥料每亩使用量x (千克)之间的对应数据的散点图,如图所示.(1)依据数据的散点图可以看出,可用线性回归模型拟合y 与x 的关系,请计算相关系数r 并加以说明(若r ,则线性相关程度很高);(2)求y 关于x 的回归方程,并预测液体肥料每亩使用量为12千克时,西红柿亩产量的增加量约为多少?附:相关系数公式r =∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2∑i =1n(y i -y )2=∑i =1nx i y i -n x y∑i =1nx 2i -n x2∑i =1ny 2i -n y2,回归方程y ^=b ^x +a ^中斜率和截距的最小二乘估计公式分别为b ^=∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2=∑i =1nx i y i -n x y∑i =1nx 2i -n x2,a ^=y -b ^x .解 (1)∵x =2+4+5+6+85=5,y =3+4+5+6+75=5.∴∑i =15(x i -x )(y i -y )=(-3)×(-2)+(-1)×(-1)+0×0+1×1+3×2=14,∑i =15(x i -x )2=(-3)2+(-1)2+02+12+32=20,∑i =15(y i -y )2=(-2)2+(-1)2+02+12+22=10.∴r =∑i =15(x i -x )(y i -y )∑i =15(x i -x)2∑i =15(y i -y )2=1420×10=7210>0.75.∴可用线性回归模型拟合y 与x 的关系.(2)b ^=∑i =15(x i -x )(y i -y )∑i =15(x i -x )2=1420=,a ^=y -b ^x =5-×5=1.5.∴y ^=x +1.5.当x =12时,y ^=×12+=9.9.∴预测液体肥料每亩使用量为12千克时,西红柿亩产量的增加量约为百千克.12.某淘宝店经过对春节七天假期的消费者的消费金额进行统计,发现在消费金额不超过1 000元的消费者中男女比例为1∶4,该店按此比例抽取了100名消费者进行进一步分析,得到下表: 女性消费情况:男性消费情况:若消费金额不低于600元的网购者为“网购达人”,低于600元的网购者为“非网购达人”. (1)分别计算女性和男性消费的平均数,并判断平均消费水平高的一方“网购达人”出手是否更阔绰?(2)根据列表中统计数据填写如下2×2列联表,并判断能否在犯错误的概率不超过的前提下认为“是否为‘网购达人’与性别有关”.附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .解 (1)女性消费者消费的平均数为180×(100×5+300×10+500×15+700×47+900×3)=582.5.男性消费者消费的平均数为120×(100×2+300×3+500×10+700×3+900×2)=500.“女网购达人”消费的平均数为150×(700×47+900×3)=712.“男网购达人”消费的平均数为15×(700×3+900×2)=780.虽然女性消费者平均消费水平较高,但“女网购达人”平均消费水平低于“男网购达人”平均消费水平,所以“平均消费水平”高的一方“网购达人”出手不一定更阔绰. (2)2×2列联表如下所示:女性 男性 总计 “网购达人” 50 5 55 “非网购达人”30 15 45 总计8020100K 2的观测值k =100×(50×15-30×5)280×20×55×45≈,因为,所以能在犯错误的概率不超过的前提下认为“是否为‘网购达人’与性别有关”.13.已知某次考试之后,班主任从全班同学中随机抽取一个容量为8的样本,他们的数学、物理成绩(单位:分)对应如下表:学生编号 1 2 3 4 5 6 7 8 数学成绩 60 65 70 75 80 85 90 95 物理成绩7277808488909395给出散点图如下:根据以上信息,判断下列结论:①根据散点图,可以判断数学成绩与物理成绩具有线性相关关系; ②根据散点图,可以判断数学成绩与物理成绩具有一次函数关系;③从全班随机抽取甲、乙两名同学,若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩一定比乙同学的物理成绩高. 其中正确的为________. 答案 ①解析 由散点图知,各点大致分布在一条直线附近,故可以判断数学成绩与物理成绩具有线性相关关系,但不能判断数学成绩与物理成绩具有一次函数关系,故①正确,②错误;若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩可能比乙同学的物理成绩高,故③错误.14.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x 6,y 6)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,6)都在曲线y =bx 2-12附近波动.经计算∑6i =1x i =12,∑6i =1y i =14,∑6i =1x 2i =23,则实数b 的值为________. 答案1723解析 令t =x 2,则非线性回归方程变为线性回归方程,即y =bt -12,此时t =∑6i =1x 2i6=236,y=∑6i =1y i6=146,代入y =bt -12,得146=b ×236-12,解得b =1723.15.某工厂为了对一种新研究的产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价x (元) 4 5 6 7 8 9 销量y (件)908483807568由表中数据,求得线性回归方程为y ^=-4x +a ^.若在这些样本点中任取一点,则它在线性回归直线左下方的概率为________. 答案 13解析 由表中数据得x =,y =80,由y =-4x +a ^,得a ^=106,故线性回归方程为y ^=-4x +106.将(4,90),(5,84),(6,83),(7,80),(8,75),(9,68)分别代入线性回归方程,可知有6个样本点,因为84<-4×5+106=86,68<-4×9+106=70,故(5,84)和(9,68)在线性回归直线的左下方,满足条件的只有2个,故所求概率为26=13.16.某电视厂家准备在国庆期间举行促销活动,现根据近七年的广告费与销售量的数据确定此次广告费支出.广告费支出x (万元)和销售量y (万台)的数据如下:(1)若用线性回归模型拟合y 与x 的关系,求出y 关于x 的线性回归方程;(2)若用y =c +d x 模型拟合y 与x 的关系,可得回归方程y ^=+x ,经计算线性回归模型和该模型的R 2分别为和,请用R 2说明选择哪个回归模型更好;(3)已知利润z 与x ,y 的关系为z =200y -x .根据(2)的结果回答下列问题: ①广告费x =20时,销售量及利润的预报值是多少? ②广告费x 为何值时,利润的预报值最大?(精确到)参考公式:回归直线y ^=a ^+b ^x 的斜率和截距的最小二乘估计值分别为b ^=∑i =1nx i y i -n x y∑i =1nx 2i -nx2=∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2,a ^=y -b ^x .参考数据:5≈2.24.解 (1)∵x =8,y =,∑i =17x i y i =,∑i =17x 2i =708,∴b ^=∑i =17x i y i -7x y∑i =17x 2i -7x2==,a ^=y -b ^x =-×8=,∴y 关于x 的线性回归方程为y ^=x +2.84.(2)∵且R 2越大,反映残差平方和越小,模型的拟合效果越好, ∴选用y ^=+x 更好.(3)由(2)知,①当x =20时,销售量的预报值y ^=+20≈6.06(万台), 利润的预报值z =200×+20)-20≈1 191.48(万元). ②z =+x )-x =-x +198x +326=-(x )2+198x +326 =-(x -99)2+10 127,∴当x =99,即x =9 801时,利润的预报值最大, 故广告费为9 801万元时,利润的预报值最大.。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第3节变量间的相关关系与统计案例最新考纲 1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系;2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆);3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用;4.了解回归分析的基本思想、方法及其简单应用.知识梳理1.相关关系与回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.2.线性回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(x n,y n),其回归方程为y^=b^x+a^,则^是回归方程的斜率,a^是在y轴上的截距.其中,b回归直线一定过样本点的中心(x,y).3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.(2)样本点的中心:对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其中(x ,y )称为样本点的中心. (3)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.(4)相关指数:其中21()ni i i y y =-∑是残差平方和,其值越小,则R 2越大(接近1),模型的拟合效果越好. 4.独立性检验(1)利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验. (2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)为则随机变量K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d ),其中n =a +b +c +d 为样本容量.[常用结论与微点提醒]1.求解回归方程的关键是确定回归系数a ^,b ^,应充分利用回归直线过样本中心点(x ,y ).2.根据K 2的值可以判断两个分类变量有关的可信程度,若K 2越大,则两分类变量有关的把握越大.3.根据回归方程计算的y^值,仅是一个预报值,不是真实发生的值.诊断自测1.思考辨析(在括号内打“√”或“×”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.()(2)通过回归直线方程y^=b^x+a^可以估计预报变量的取值和变化趋势.()(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.()(4)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大.()答案(1)√(2)√(3)×(4)√2.(必修3P90例题改编)某研究机构对高三学生的记忆力x和判断力y进行统计分析,所得数据如表:则y对x的线性回归直线方程为()A.y^=2.3x-0.7B.y^=2.3x+0.7C.y^=0.7x-2.3D.y^=0.7x+2.3解析易求x=9,y=4,样本点中心(9,4)代入验证,满足y^=0.7x-2.3.答案 C3.两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是()A.模型1的相关指数R2为0.98B.模型2的相关指数R2为0.80C.模型3的相关指数R2为0.50D.模型4的相关指数R2为0.25解析在两个变量y与x的回归模型中,它们的相关指数R2越近于1,模拟效果越好,在四个选项中A的相关指数最大,所以拟合效果最好的是模型1.答案 A4.(2015·全国Ⅱ卷)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论不正确的是()A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关解析对于A选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A正确.对于B选项,由图知,由2006年到2007年矩形高度明显下降,因此B正确.对于C选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,D不正确.答案 D5.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到K2的观测值k=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.解析K2的观测值k≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.答案5%考点一相关关系的判断【例1】(1)已知变量x和y近似满足关系式y=-0.1x+1,变量y与z正相关.下列结论中正确的是()A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关(2)甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:则哪位同学的试验结果体现A,B两变量有更强的线性相关性()A.甲B.乙C.丙D.丁解析(1)由y=-0.1x+1,知x与y负相关,即y随x的增大而减小,又y与z 正相关,所以z随y的增大而增大,减小而减小,所以z随x的增大而减小,x 与z负相关.(2)在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A,B两变量有更强的线性相关性.答案(1)C(2)D规律方法 1.散点图中如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关.2.利用相关系数判定,当|r|越趋近于1相关性越强.当残差平方和越小,相关指数R2越大,相关性越强.若r>0,则正相关;r<0时,则负相关.3.线性回归直线方程中:b^>0时,正相关;b^<0时,负相关.【训练1】(1)某公司在2018年上半年的收入x(单位:万元)与月支出y(单位:万元)的统计资料如下表所示:根据统计资料,则()A.月收入的中位数是15,x与y有正线性相关关系B.月收入的中位数是17,x与y有负线性相关关系C.月收入的中位数是16,x与y有正线性相关关系D.月收入的中位数是16,x与y有负线性相关关系(2)x和y的散点图如图所示,则下列说法中所有正确命题的序号为________.①x,y是负相关关系;②在该相关关系中,若用y=c1e c2x拟合时的相关指数为R21,用y^=b^x+a^拟合时的相关指数为R22,则R21>R22;③x,y之间不能建立线性回归方程.解析(1)从统计图表中看出,月收入的中位数是12(15+17)=16,收入增加,则支出也增加,x与y正线性相关.(2)在散点图中,点散布在从左上角到右下角的区域,因此x,y是负相关关系,故①正确;由散点图知用y=c1e c2x拟合比用y^=b^x+a^拟合效果要好,则R21>R22,故②正确;x,y之间可以建立线性回归方程,但拟合效果不好,故③错误.答案(1)C(2)①②考点二线性回归方程及应用【例2】(2015·全国Ⅰ卷)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费x i和年销售量y i(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.(1)根据散点图判断,y=a+bx与y=c+d x哪一个适宜作为年销售量y关于年宣传费x的回归方程类型(给出判断即可,不必说明理由)?(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:①年宣传费x=49时,年销售量及年利润的预报值是多少?②年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),…,(u n,v n),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为:解(1)由散点图可以判断,y=c+d x适宜作为年销售量y关于年宣传费x的回归方程类型.(2)令w=x,先建立y关于w的线性回归方程,由于所以y关于w的线性回归方程为y^=100.6+68w,因此y关于x的回归方程为y^=100.6+68x.(3)①由(2)知,当x=49时,年销售量y的预报值y^=100.6+6849=576.6,年利润z的预报值z^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z的预报值z^=0.2(100.6+68x)-x=-x+13.6x+20.12.所以当x=13.62=6.8,即x=46.24时,z^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.规律方法 1.(1)正确理解计算b^,a^的公式和准确的计算是求线性回归方程的关键.(2)回归直线方程y^=b^x+a^必过样本点中心(x,y).2.(1)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.(2)本例中y 与x 不具有线性相关,先作变换,转化为y 与w 具有线性相关,求出y 关于w 的线性回归方程,然后进一步求解.【训练2】 (2018·日照调研)某地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额),如下表1:表1为了研究计算的方便,工作人员将上表的数据进行了处理,t =x -2 012,z =y -5得到下表2:表2(1)求z 关于t 的线性回归方程;(2)通过(1)中的方程,求出y 关于x 的回归方程;(3)用所求回归方程预测到2022年年底,该地储蓄存款额可达多少?b ^=45-5×3×2.255-5×9=1.2,a ^=z -b ^t -=2.2-3×1.2=-1.4, 所以z ^=1.2t -1.4.(2)将t=x-2 012,z=y-5,代入z^=1.2t-1.4,得y-5=1.2(x-2 012)-1.4,即y^=1.2x-2 410.8.(3)因为y^=1.2×2 022-2 410.8=15.6,所以预测到2022年年底,该地储蓄存款额可达15.6千亿元.考点三独立性检验【例3】某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集了300位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率;(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)解(1)利用分层抽样,300×4 50015 000=90,所以应收集90位女生的样本数据.(2)由频率分布直方图得1-2×(0.100+0.025)=0.75.所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.(3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:将2×2列联表中的数据代入公式计算,得K 2的观测值 k =300×(45×60-165×30)275×225×210×90=10021≈4.762>3.841.所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”. 规律方法 1.在2×2列联表中,如果两个变量没有关系,则应满足ad -bc ≈0.|ad -bc |越小,说明两个变量之间关系越弱;|ad -bc |越大,说明两个变量之间关系越强.2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:(1)根据样本数据制成2×2列联表: (2)根据公式K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )计算K 2的观测值k ;(3)比较观测值k 与临界值的大小关系,作统计推断.【训练3】 (2018·合肥质检)某校在高一年级学生中,对自然科学类、社会科学类校本选修课程的选课意向进行调查. 现从高一年级学生中随机抽取180名学生,其中男生105名;在这180名学生中选择社会科学类的男生、女生均为45名.(1)试问:从高一年级学生中随机抽取1人,抽到男生的概率约为多少? (2)根据抽取的180名学生的调查结果,完成下面的2×2列联表.并判断能否在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关?附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .解 (1)从高一年级学生中随机抽取1人,抽到男生的概率约为105180=712. (2)根据统计数据,可得2×2列联表如下:则K 2的观测值为k =180×(60×45-30×45)2105×75×90×90=367≈5.142 9>5.024,所以能在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关.基础巩固题组 (建议用时:40分钟)一、选择题1.为了判定两个分类变量X 和Y 是否有关系,应用独立性检验法算得K 2的观测值为5,又已知P (K 2≥3.841)=0.05,P (K 2≥6.635)=0.01,则下列说法正确的是( )A.有95%的把握认为“X 和Y 有关系”B.有95%的把握认为“X 和Y 没有关系”C.有99%的把握认为“X和Y有关系”D.有99%的把握认为“X和Y没有关系”解析依题意K2的观测值为k=5,且P(K2≥3.841)=0.05,因此有95%的把握认为“X和Y有关系”.答案 A2.(2018·石家庄模拟)下列说法错误的是()A.回归直线过样本点的中心(x,y).B.两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于1C.对分类变量X与Y,随机变量K2的观测值k越大,则判断“X与Y有关系”的把握程度越小D.在回归直线方程y^=0.2x+0.8中,当解释变量x每增加1个单位时,预报变量y^平均增加0.2个单位解析根据相关定义分析知A,B,D正确,C中对分类变量X与Y的随机变量K2的观测值k来说,k越大,判断“X与Y有关系”的把握程度越大,故C错误. 答案 C3.(2017·汉中模拟)已知两个随机变量x,y之间的相关关系如表所示:^=b^x+a^,则大致可以判断()根据上述数据得到的回归方程为yA.a^>0,b^>0B.a^>0,b^<0C.a^<0,b^>0D.a^<0,b^<0^>0,a^<0.解析作出散点图,画出回归直线直观判定b答案 C4.通过随机询问110名性别不同的学生是否爱好某项运动,得到如下的列联表:由K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )算得,K 2的观测值为k =110×(40×30-20×20)260×50×60×50≈7.8.附表:参照附表,得到的正确结论是( )A.有99%以上的把握认为“爱好该项运动与性别有关”B.有99%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关” 解析 根据独立性检验的定义,由K 2的观测值为k ≈7.8>6.635,可知我们在犯错误的概率不超过0.01的前提下,即有99%以上的把握认为“爱好该项运动与性别有关”. 答案 A5.(2017·山东卷)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为y ^=b ^x +a ^.已知∑10i =1x i =225,∑10i =1y i =1 600,b ^=4.该班某学生的脚长为24,据此估计其身高为( ) A.160B.163C.166D.170解析 由已知得x =22.5,y =160, ∵回归直线方程过样本点中心(x ,y ), 且b^=4,∴160=4×22.5+a^,解得a^=70.∴回归直线方程为y^=4x+70,当x=24时,y^=166.答案 C二、填空题6.(2017·西安模拟)某车间为了规定工时定额,需要确定加工零件所花费的时间,^为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y=0.67x+54.9.现发现表中有一个数据看不清,请你推断出该数据的值为________.解析由x=30,得y=0.67×30+54.9=75.设表中的“模糊数字”为a,则62+a+75+81+89=75×5,∴a=68.答案687.(2018·赣中南五校联考)心理学家分析发现视觉和空间想象能力与性别有关,某数学兴趣小组为了验证这个结论,从所在学校中按分层抽样的方法抽取50名同学(男30,女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)根据上述数据,推断视觉和空间想象能力与性别有关系,则这种推断犯错误的概率不超过________.附表:解析由列联表计算K2的观测值k=50(22×12-8×8)230×20×20×30≈5.556>5.024.∴推断犯错误的概率不超过0.025.答案0.0258.(2018·长沙雅礼中学质检)某单位为了了解用电量y(度)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:由表中数据得回归直线方程y^=b^x+a^中的b^=-2,预测当气温为-4 ℃时,用电量约为________度.解析根据题意知x=18+13+10+(-1)4=10,y=24+34+38+644=40.所以a^=40-(-2)×10=60,y^=-2x+60.所以当x=-4时,y=(-2)×(-4)+60=68,所以用电量约为68度.答案68三、解答题9.(2018·重庆调研)某厂商为了解用户对其产品是否满意,在使用该产品的用户中随机调查了80人,结果如下表:(1)根据上表,现用分层抽样的方法抽取对产品满意的用户5人,在这5人中任选2人,求被选中的恰好是男、女用户各1人的概率;(2)有多大把握认为用户对该产品是否满意与用户性别有关?请说明理由.注:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .解 (1)用分层抽样的方法在满意产品的用户中抽取5人,则抽取比例为550=110. 所以在满意产品的用户中应抽取女用户20×110=2(人),男用户30×110=3(人). 抽取的5人中,三名男用户记为a ,b ,c ,两名女用户记为r ,s ,则从这5人中任选2人,共有10种情况:ab ,ac ,ar ,as ,bc ,br ,bs ,cr ,cs ,rs . 其中恰好是男、女用户各1人的有6种情况:ar ,as ,br ,bs ,cr ,cs . 故所求的概率为P =610=0.6. (2)由题意,得K 2的观测值为k =80(30×20-20×10)2(30+20)(10+20)(30+10)(20+20) =163≈5.333>5.024. 又P (K 2≥5.024)=0.025.故有97.5%的把握认为“产品用户是否满意与性别有关”.10.(2018·惠州模拟)某市春节期间7家超市广告费支出x i (万元)和销售额y i (万元)数据如下表:(1)若用线性回归模型拟合y 与x 的关系,求y 与x 的线性回归方程;(2)若用二次函数回归模型拟合y 与x 的关系,可得回归方程:y ^=-0.17x 2+5x +20,经计算,二次函数回归模型和线性回归模型的R 2分别约为0.93和0.75,请用R 2说明选择哪个回归模型更合适,并用此模型预测A 超市广告费支出3万元时的销售额.∴a^=y-b^x=42-1.7×8=28.4,故y关于x的线性回归方程是y^=1.7x+28.4.(2)∵0.75<0.93,∴二次函数回归模型更合适.当x=3时,y^=33.47.故选择二次函数回归模型更合适,并且用此模型预测A超市广告费支出3万元时的销售额为33.47万元.能力提升题组(建议用时:20分钟)11.(2018·济南调研)济南市地铁R1线预计2019年年底开通运营,地铁时代的到来能否缓解济南的交通拥堵状况呢?某社团进行社会调查,得到的数据如下表:则下列结论正确的是()附:K2=n(ad-bc)2(a+b)(a+c)(b+d)(c+d)A.有95%的把握认为“对能否缓解交通拥堵的认识与性别有关”B.有95%的把握认为“对能否缓解交通拥堵的认识与性别无关”C.有99%的把握认为“对能否缓解交通拥堵的认识与性别有关”D.有99%的把握认为“对能否缓解交通拥堵的认识与性别无关”解析 由2×2列联表,可求K 2的观测值, k =(48+30+12+20)(20×48-12×30)2(48+30)(48+12)(12+20)(30+20) ≈5.288>3.841.由统计表P (K 2≥3.841)=0.05,∴有95%的把握认为“能否缓解交通拥堵的认识与性别有关”. 答案 A12.在2018年3月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示:由散点图可知,销售量y 与价格x 之间有较强的线性相关关系,其线性回归方程是y ^=-3.2x +40,且m +n =20,则其中的n =________. 解析 x =9+9.5+m +10.5+115=8+m 5, y =11+n +8+6+55=6+n 5.回归直线一定经过样本中心(x ,y ), 即6+n 5=-3.2⎝ ⎛⎭⎪⎫8+m 5+40,即3.2m +n =42.又因为m +n =20,即⎩⎪⎨⎪⎧3.2m +n =42,m +n =20,解得⎩⎪⎨⎪⎧m =10,n =10,故n =10.答案 1013.(2018·湖南百所重点中学阶段性诊断)已知某企业近3年的前7个月的月利润(单位:百万元)如下面的折线图所示:(1)试问这3年的前7个月中哪个月的月平均利润较高? (2)通过计算判断这3年的前7个月的总利润的发展趋势;(3)试以第3年的前4个月的数据(如下表),用线性回归的拟合模式估计第3年8月份的利润.解 (1)由折线图可知5月和6月的平均利润最高.(2)第1年前7个月的总利润为1+2+3+5+6+7+4=28(百万元), 第2年前7个月的总利润为2+5+5+4+5+5+5=31(百万元). 第3年前7个月的总利润为4+4+6+6+7+6+8=41(百万元), 所以这3年的前7个月的总利润呈上升趋势.(3)∵x =2.5,y =5,12+22+32+42=30,1×4+2×4+3×6+4×6=54, ∴b^=54-4×2.5×530-4×2.52=0.8,∴a ^=5-2.5×0.8=3. 因此线性回归方程为y ^=0.8x +3. 当x =8时,y ^=0.8×8+3=9.4.∴估计第3年8月份的利润为9.4百万元.。