课时跟踪检测(十五) 回归分析的基本思想及其初步应用
2019-2020学年高中数学(人教版选修2-3)课时跟踪检测(十五) 回归分析的基本思想及其初步应用 Word版含答
课时跟踪检测(十五) 回归分析的基本思想及其初步应用一、选择题1.(福建高考)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y ^=b ^x +a ^,其中b ^=0.76,a ^=y --b ^x -.据此估计,该社区一户年收入为15万元家庭的年支出为( )A .11.4万元B .11.8万元C .12.0万元D .12.2万元解析:选B 由题意知,x -=8.2+8.6+10.0+11.3+11.95=10,y -=6.2+7.5+8.0+8.5+9.85=8,∴a ^=8-0.76×10=0.4,∴当x =15时,y ^=0.76×15+0.4=11.8(万元).2.甲、乙、丙、丁四位同学在建立变量x ,y 的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R 2分别如下表:哪位同学建立的回归模型拟合效果最好?( ) A .甲 B .乙 C .丙D .丁解析:选A 相关指数R 2越大,表示回归模型的拟合效果越好.3.对变量x ,y 进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是( )解析:选A 用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越窄,说明模型的拟合精度越高.4.某产品的广告费用x 与销售额y 的统计数据如下表:根据上表可得回归方程y ^=b ^x +a ^中的b ^为9.4,据此模型预报广告费用为6万元时销售额为( ) A .63.6万元 B .65.5万元 C .67.7万元D .72.0万元解析:选B 样本点的中心是(3.5,42), 则a ^=y -b ^x =42-9.4×3.5=9.1, 所以回归直线方程是y ^=9.4x +9.1, 把x =6代入得y ^=65.5.5.(湖北高考)已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( ) A .x 与y 正相关,x 与z 负相关 B .x 与y 正相关,x 与z 正相关 C .x 与y 负相关,x 与z 负相关 D .x 与y 负相关,x 与z 正相关解析:选C 因为y =-0.1x +1的斜率小于0,故x 与y 负相关.因为y 与z 正相关,可设z =b ^y +a ^,b ^>0,则z =b ^y +a ^=-0.1b ^x +b ^+a ^,故x 与z 负相关.二、填空题6.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为________.解析:根据样本相关系数的定义可知,当所有样本点都在直线上时,相关系数为1.答案:17.若一个样本的总偏差平方和为80,残差平方和为60,则相关指数R 2为________. 解析:回归平方和=总偏差平方和-残差平方和=80-60=20, 故R 2=2080=0.25⎝ ⎛⎭⎪⎫或R2=1-6080=0.25.答案:0.258.面对竞争日益激烈的消费市场,众多商家不断扩大自己的销售市场,以降低生产成本.某白酒酿造企业市场部对该企业9月份的产品销量(单位:千箱)与单位成本(单位:元)的资料进行线性回归分析,结果如下:x =72,y =71,∑i =16x2i =79,∑i =16x i y i =1 481.则销量每增加1 000箱,单位成本下降________元. 解析:由题意知,b ^=1 481-6×72×7179-6×⎝ ⎛⎭⎪⎫722≈-1.818 2,a ^=71-(-1.818 2)×72≈77.36,y ^=-1.818 2x +77.36,销量每增加1 000箱,则单位成本下降1.8182元.答案:1.818 29.某中高二某班为了对即将上市的班刊进行合理定价,将对班刊按事先拟定的价格进行试销,得到如下数据:(1)求线性回归方程y =b x +a .(2)预计今后的销售中,销量与单价服从(1)中的关系,且班刊的成本是4元/件,为了获得最大利润,班刊的单价定为多少元?解:(1)x =8+8.2+8.4+8.6+8.8+96=8.5,y =90+84+83+80+75+686=80,∑i =14x i y i =8×90+8.2×84+8.4×83+8.6×80+8.8×75+9×68=4 066,∑i =14x2i =82+8.22+8.42+8.62+8.82+92=434.2,b ^=∑i =1n-x -y∑i =1n-x=4 066-6×8.5×80434.2-6×8.52=-20,a ^=y -b ^x =80+20×8.5=250, 所求线性回归方程为y ^=-20x +250.(2)获得利润z =(x -4)y =-20x 2+330x -1 000, 当x =8.25时,z max =361.25(元),所以当单价定为8.25元时,可获得最大利润.10.下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2017年我国生活垃圾无害化处理量.参考数据:∑i =17y i =9.32,∑i =17t i y i =40.17,∑i =17-y =0.55,7≈ 2.646.参考公式:相关系数r=∑i =1n-t-y ∑i =1n-t∑i =1n-y,回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为b ^=∑i =1n-t-y∑i =1n-t,a ^=y -b ^t .解:(1)由折线图中的数据和附注中的参考数据得t =4,∑i =17(t i -t )2=28, ∑i =17-y =0.55,∑i =17 (t i -t )(y i -y )=∑i =17t i y i -t ∑i =17y i =40.17-4×9.32=2.89,∴r ≈2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当大,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1)得 b ^=∑i =17-t -y∑i =17-t=2.8928≈0.103. a ^=y -b ^t ≈1.331-0.103×4≈0.92. 所以y 关于t 的回归方程为y ^=0.92+0.10t .将2017年对应的t =10代入回归方程得y ^=0.92+0.10×10=1.92. 所以预测2017年我国生活垃圾无害化处理量约为1.92亿吨.11.假设关于某设备使用年限x (年)和所支出的维修费用y (万元)有如下统计资料:若由资料知,y 对x 呈线性相关关系,试求: (1)回归直线方程;(2)估计使用年限为10年时,维修费用约是多少? 解:(1)由表格中的数据可得x =15(2+3+4+5+6)=4y =15(2.2+3.8+5.5+6.5+7.0)=5.∑i =15x2i =22+32+42+52+62=90, ∑i =15x i y i =2×2.2+3×3.8+4×5.5+5×6.5+6×7.0=112.3,所以回归系数b ^=∑i =15xiyi -5x-y-∑i =15x2i -5x 2=112.3-5×4×590-5×42=12.310=1.23.可得a ^=y -b ^x =5-1.23×4=0.08. 所以回归直线方程为y ^=1.23x +0.08.(2)当x =10时,y ^=1.23×10+0.08=12.38(万元) 即估计用10年时,维修费约为12.38万元.。
高中数学课时跟踪检测(一)回归分析的基本思想及其初步应用新人教A版选修1_2
课时跟踪检测(一) 回归分析的基本思想及其初步应用一、选择题1.(重庆高考)已知变量x 与y 正相关,且由观测数据算得样本平均数x -=3,y -=3.5,则由该观测数据算得的线性回归方程可能为( )A.y ^=0.4x +2.3B.y ^=2x -2.4 C.y ^=-2x +9.5 D.y ^=-0.3x +4.4解析:选A 依题意知,相应的回归直线的斜率应为正,排除C 、D.且直线必过点(3,3.5),代入A 、B 得A 正确.2.甲、乙、丙、丁四位同学在建立变量x ,y 的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R 2分别如下表:建立的回归模型拟合效果最好的同学是( ) A .甲 B .乙 C .丙D .丁解析:选A 相关指数R 2越大,表示回归模型拟合效果越好.3.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系.根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71.则下列结论中不正确的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x -,y -)C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg解析:选D 回归方程中x 的系数为0.85>0,因此y 与x 具有正的线性相关关系,A 正确;由回归方程系数的意义可知回归直线过样本点的中心(x -,y -),B 正确;依据回归方程中b ^的含义可知,x 每变化1个单位,y ^相应变化约0.85个单位,C 正确; 用回归方程对总体进行估计不能得到肯定结论,故D 不正确.4.甲、乙、丙、丁4位同学各自对A ,B 两变量做回归分析,分别得到散点图与残差平方和∑i =1n(y i -y ^i )2,如下表:哪位同学的试验结果体现拟合A ,B 两变量关系的模型拟合精度高?( ) A .甲 B .乙 C .丙D .丁解析:选D 从题中的散点图上来看,丁同学的散点图中的点更加近似在一条直线附近;从残差平方和来看,丁同学的最小,说明拟合精度最高.5.(福建高考)已知x 与y 之间的几组数据如下表:假设根据上表数据所得线性回归直线方程为y =b x +a ,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( )A.b ^>b ′,a ^>a ′ B.b ^>b ′,a ^<a ′ C.b ^<b ′,a ^>a ′D.b ^<b ′,a ^<a ′解析:选C 由两组数据(1,0)和(2,2)可求得直线方程为y =2x -2,b ′=2,a ′=-2. 而利用线性回归方程的公式与已知表格中的数据,可求得b ^=∑i =16x i y i -6x - y-∑i =16x 2i -6x -2=58-6×72×13691-6×⎝ ⎛⎭⎪⎫722=57,a ^=y --b ^x -=136-57×72=-13,所以b ^<b ′,a ^>a ′. 二、填空题6.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为_________.解析:根据样本相关系数的定义可知,当所有样本点都在直线上时,相关系数为1. 答案:17.为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下表:则y 对x 的线性回归方程为________________. 解析:设y 对x 的线性回归方程为y ^=b ^x +a ^, 由表中数据得x -=176,y -=176,b ^=12,a ^=176-12×176=88,所以y 对x 的线性回归方程为y ^=12x +88.答案:y ^=12x +888.关于x 与y 有如下数据:为了对x ,y 两个变量进行统计分析,现有以下两种线性模型:甲:y ^=6.5x +17.5,乙:y ^=7x +17,则____________(填“甲”或“乙”)模型拟合的效果更好.解析:设甲模型的相关指数为R 21,则R 21=1-∑i =15y i -y ^i2∑i =15y i -y-2=1-1551 000=0.845;设乙模型的相关指数为R 22, 则R 22=1-1801 000=0.82.因为0.845>0.82,即R 21>R 22, 所以甲模型拟合效果更好. 答案:甲 三、解答题9.(新课标全国卷Ⅱ)某地区2007年至2013年农村居民家庭人均纯收入y (单位:千元)的数据如下表:(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为b ^=∑i =1nt i -t-y i -y-∑i =1nt i -t-2,a ^=y --b ^t -.解:(1)由所给数据计算得 t -=17×(1+2+3+4+5+6+7)=4,y -=17×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,∑i =17(t i -t -)2=9+4+1+0+1+4+9=28,∑i =17(t i -t -)(y i -y -)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,b ^=∑i =17t i -t -y i -y-∑i =17t i -t-2=1428=0.5, a ^=y --b ^t -=4.3-0.5×4=2.3,所求回归方程为y ^=0.5t +2.3.(2)由(1)知,b ^=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.将2015年的年份代号t =9代入(1)中的回归方程,得y ^=0.5×9+2.3=6.8, 故预测该地区2015年农村居民家庭人均纯收入为6.8千元.10.在一段时间内,某种商品的价格x (元)和需求量y (件)之间的一组数据如下表:求出y 关于x 的线性回归方程,并说明拟合效果的好坏.(参考数据:∑5i =1x 2i =1 660,∑5i =1x i y i=3 992)解:从作出的散点图(图略)可看出,这些点在一条直线附近,可用线性回归模型来拟合数据.由数据可得x -=18,y -=45.4.由计算公式得b ^=-2.35,a ^=y --b ^x -=87.7. 故y 关于x 的线性回归方程为y ^=-2.35x +87.7. 列表:所以∑5i =1 (y i -y i )2=8.3,∑i =1(y i -y )2=229.2. 相关指数R 2=1-∑5i =1y i -y ^i2∑5i =1y i -y -2≈0.964.因为0.964很接近于1,所以该模型的拟合效果好.。
回归分析的基本思想及其初步应用
回归分析的基本思想及其初步应用1.回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,回归分析的基本步骤是画出两个变量的散点图,求回归直线方程,并用回归直线方程进行预报. 2.线性回归模型(1)在线性回归直线方程y ^=a ^+b ^x 中,b ^=∑ni =1 (x i -x )(y i -y )∑ni =1(x i -x )2,a ^=y --b ^x -,其中x -=1n ∑ni =1x i ,y -=1n∑ni =1y i ,(x ,y )称为样本点的中心,回归直线过样本点的中心. (2)线性回归模型y =bx +a +e ,其中e 称为随机误差,自变量x 称为解释变量,因变量y 称为预报变量.[注意] (1)非确定性关系:线性回归模型y =bx +a +e 与确定性函数y =a +bx 相比,它表示y 与x 之间是统计相关关系(非确定性关系),其中的随机误差e 提供了选择模型的准则以及在模型合理的情况下探求最佳估计值a ,b 的工具.(2)线性回归方程y ^=b ^x +a ^中a ^,b ^的意义是:以a ^为基数,x 每增加1个单位,y 相应地平均增加b ^个单位.3.刻画回归效果的方式方式方法计算公式 刻画效果R 2R 2=1-∑ni =1(y i -y ^i )2∑n i =1(y i -y )2R 2越接近于1,表示回归的效果越好残差图e ^i 称为相应于点(x i ,y i )的残差,e ^i =y i -y ^i残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高残差平方和∑ni =1(y i -y ^i )2 残差平方和越小,模型的拟合效果越好判断正误(正确的打“√”,错误的打“×”) (1)求线性回归方程前可以不进行相关性检验.( )(2)在残差图中,纵坐标为残差,横坐标可以选为样本编号.( )(3)利用线性回归方程求出的值是准确值.( ) 答案:(1)× (2)√ (3)×变量x 与y 之间的回归方程表示( )A .x 与y 之间的函数关系B .x 与y 之间的不确定性关系C .x 与y 之间的真实关系形式D .x 与y 之间的真实关系达到最大限度的吻合 答案:D在两个变量y 与x 的回归模型中,分别选择了4个不同的模型,它们的相关指数R 2如下,其中拟合效果最好的模型是( )A .模型1的相关指数R 2为0.98 B .模型2的相关指数R 2为0.80 C .模型3的相关指数R 2为0.50 D .模型4的相关指数R 2为0.25 答案:A已知线性回归方程y ^=0.75x +0.7,则x =11时,y 的估计值为________. 答案:8.95探究点1 线性回归方程在某种产品表面进行腐蚀刻线试验,得到腐蚀深度y 与腐蚀时间x 之间的一组观察值如下表.x (s) 5 10 15 20 30 40 50 60 70 90 120 y (μm)610101316171923252946(1)画出散点图;(2)求y 对x 的线性回归方程;(3)利用线性回归方程预测时间为100 s 时腐蚀深度为多少. 【解】 (1)散点图如图所示.(2)从散点图中,我们可以看出y 对x 的样本点分布在一条直线附近,因而求回归直线方程有意义.x =111(5+10+15+ (120)=51011,y =111(6+10+10+…+46)=21411,a ^=y -b ^x ≈21411-0.304×51011= 5.36. 故腐蚀深度对腐蚀时间的线性回归方程为y =0.304x + 5.36.(3)根据(2)求得的线性回归方程,当腐蚀时间为100 s 时,y ^=5.36+0.304×100=35.76(μm),即腐蚀时间为100 s 时腐蚀深度大约为35.76 μm.求线性回归方程的三个步骤(1)画散点图:由样本点是否呈条状分布来判断两个量是否具有线性相关关系. (2)求回归系数:若存在线性相关关系,则求回归系数.(3)写方程:写出线性回归方程,并利用线性回归方程进行预测说明.炼钢是一个氧化降碳的过程,钢水含碳量的多少直接影响冶炼时间的长短,必须掌握钢水含碳量和冶炼时间的关系.如果已测得炉料熔化完毕时钢水的含碳量x 与冶炼时间y (从炼料熔化完毕到出钢的时间)的数据(x i ,y i )(i =1,2,…,10)并已计算出=1589,i =110y i =1 720,故冶炼时间y 对钢水的含碳量x 的回归直线方程为y ^=1.267x -30.47. 探究点2 线性回归分析假定小麦基本苗数x 与成熟期有效穗y 之间存在相关关系,今测得5组数据如下:(1)以x 为解释变量,y 为预报变量,作出散点图;(2)求y 与x 之间的回归方程,对于基本苗数56.7预报有效穗; (3)计算各组残差,并计算残差平方和;(4)求相关指数R 2,并说明残差变量对有效穗的影响占百分之几? 【解】 (1)散点图如下.(2)由图看出,样本点呈条状分布,有比较好的线性相关关系,因此可以用回归方程刻画它们之间的关系.设回归方程为y ^=b ^x +a ^,x -=30.36,y -=43.5,(1)该类题属于线性回归问题,解答本题应先通过散点图来分析两变量间的关系是否线性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图或相关指数R 2来分析函数模x 15.0 25.8 30.0 36.6 44.4 y39.442.942.943.149.2型的拟合效果,在此基础上,借助回归方程对实际问题进行分析. (2)刻画回归效果的三种方法①残差图法:残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适; ②残差平方和法:残差平方和 i =1n(y i -y ^i )2越小,模型的拟合效果越好;关于x 与y 有如下数据:x 2 4 5 6 8 y3040605070由(2)可得y i -y ^i 与y i -y -的关系如下表:y i -y ^i -1 -5 8 -9 -3 y i -y --20-101020由于R 21=0.845,R 22=0.82,0.845>0.82, 所以R 21>R 22.所以(1)的拟合效果好于(2)的拟合效果. 探究点3 非线性回归分析某地今年上半年患某种传染病的人数y (人)与月份x (月)之间满足函数关系,模型为y =a e bx ,确定这个函数解析式.月份x /月 1 2 3 4 5 6 人数y /人526168747883【解】 设u =ln y ,c =ln a , 得u ^=c ^+b ^x ,则u 与x 的数据关系如下表:x12 3 4 56u =ln y 3.95 4.114.224.3044.356 7 4.418 8非线性回归方程的步骤(1)确定变量,作出散点图.(2)根据散点图,选择恰当的拟合函数.(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程. (4)分析拟合效果:通过计算相关指数或画残差图来判断拟合效果. (5)根据相应的变换,写出非线性回归方程.某种书每册的成本费y (元)与印刷册数x (千册)有关,经统计得到数据如下:x(千册)1 2 3 5 10 20 30 50 100 200 y (元)10.155.524.082.852.111.621.411.301.211.15检验每册书的成本费y (元)与印刷册数的倒数1x之间是否具有线性相关关系,如有,求出y 对x 的回归方程,并画出其图形.解:首先作变量置换u =1x,题目中所给的数据变成如下表所示的10对数据.u i 1 0.5 0.33 0.2 0.1 0.05 0.03 0.02 0.01 0.005 y i10.155.524.082.852.111.621.411.301.211.15然后作相关性检测.经计算得r ≈0.999 8>0.75,从而认为u 与y 之间具有线性相关关系,由公式得a ^≈1.125,b ^≈8.973,所以y ^=1.125+8.973u ,最后回代u =1x ,可得y ^=1.125+8.973x.这就是题目要求的y 对x 的回归方程.回归方程的图形如图所示,它是经过平移的反比例函数图象的一个分支.1.关于回归分析,下列说法错误的是( ) A .回归分析是研究两个具有相关关系的变量的方法 B .散点图中,解释变量在x 轴,预报变量在y 轴C .回归模型中一定存在随机误差D .散点图能明确反映变量间的关系解析:选D.用散点图反映两个变量间的关系时,存在误差. 2.下列关于统计的说法:①将一组数据中的每个数据都加上或减去同一个常数,方差恒不变; ②回归方程y ^=b ^x +a ^必经过点(x ,y ); ③线性回归模型中,随机误差e =y i -y ^i ;④设回归方程为y ^=-5x +3,若变量x 增加1个单位,则y 平均增加5个单位. 其中正确的为________(写出全部正确说法的序号).解析:①正确;②正确;③线性回归模型中,随机误差的估计值应为e ^i =y i -y ^i ,故错误;④若变量x 增加1个单位,则y 平均减少5个单位,故错误. 答案:①②3.某商场经营一批进价是30元/台的小商品,在市场试销中发现,此商品的销售单价x (x 取整数)(元)与日销售量y (台)之间有如下关系:x 35 40 45 50 y56412811(1)画出散点图,并判断y 与x 是否具有线性相关关系;(2)求日销售量y 对销售单价x 的线性回归方程(方程的斜率保留一个有效数字); (3)设经营此商品的日销售利润为P 元,根据(2)写出P 关于x 的函数关系式,并预测当销售单价x 为多少元时,才能获得最大日销售利润.解:(1)散点图如图所示,从图中可以看出这些点大致分布在一条直线附近,因此两个变量具有线性相关关系.(2)因为x -=14×(35+40+45+50)=42.5,(3)依题意有P =(161.5-3x )(x -30) =-3x 2+251.5x -4 845=-3⎝⎛⎭⎪⎫x -251.562+251.5212-4 845. 所以当x =251.56≈42时,P 有最大值,约为426元.故预测当销售单价为42元时,能获得最大日销售利润.知识结构深化拓展线性回归模型的模拟效果(1)残差图法:观察残差图,如果残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.(2)残差的平方和法:一般情况下,比较两个模型的残差比较困难(某些样本点上一个模型的残差的绝对值比另一个模型的小,而另一些样本点的情况则相反),故通过比较两个模型的残差的平方和的大小来判断模型的拟合效果.残差平方和越小的模型,拟合的效果越好.(3)R 2法:R 2的值越大,说明残差平方和越小,也就是说模型拟合的效果越好.[注意] r 的绝对值越大说明变量间的相关性越强,通常认为r 的绝对值大于等于0.75时就是有较强的相关性,同样R 2也是如此,R 2越大拟合效果越好.[A 基础达标]1.废品率x %和每吨生铁成本y (元)之间的回归直线方程为y ^=256+3x ,表明( ) A .废品率每增加1%,生铁成本增加259元 B .废品率每增加1%,生铁成本增加3元 C .废品率每增加1%,生铁成本平均每吨增加3元 D .废品率不变,生铁成本为256元解析:选C.回归方程的系数b ^表示x 每增加一个单位,y ^平均增加b ^,当x 为1时,废品率应为1%,故当废品率增加1%时,生铁成本平均每吨增加3元.2.已知某产品连续4个月的广告费用为x i (i =1,2,3,4)千元,销售额为y i (i =1,2,3,4)万元,经过对这些数据的处理,得到如下数据信息:①x 1+x 2+x 3+x 4=18,y 1+y 2+y 3+y 4=14;②广告费用x 和销售额y 之间具有较强的线性相关关系;③回归直线方程y ^=b ^x +a ^中,b ^=0.8(用最小二乘法求得),那么当广告费用为6千元时,可预测销售额约为( )A .3.5万元B .4.7万元C .4.9万元D .6.5万元解析:选B.依题意得x =4.5,y =3.5,由回归直线必过样本点中心得a ^=3.5-0.8×4.5=-0.1,所以回归直线方程为y ^=0.8x -0.1.当x =6时,y ^=0.8×6-0.1=4.7.3.某化工厂为预测某产品的回收率y ,需要研究它和原料有效成分含量之间的相关关系,现取了8对观测值,计算得的线性回归方程是( )A.y ^=11.47+2.62xB.y ^=-11.47+2.62x C.y ^=2.62+11.47x D.y ^=11.47-2.62x 解析:选A.由题中数据得x =6.5,y =28.5,a ^=y -b ^x =28.5-2.62×6.5=11.47,所以y 与x 的线性回归方程是y ^=2.62x +11.47.故选A.4.若某地财政收入x 与支出y 满足线性回归方程y =bx +a +e (单位:亿元),其中b =0.8,a =2,|e |≤0.5.如果今年该地区财政收入10亿元,则年支出预计不会超过( )A .10亿元B .9亿元C .10.5亿元D .9.5 亿元解析:选C.代入数据y =10+e ,因为|e |≤0.5, 所以9.5≤y ≤10.5,故不会超过10.5亿元.5.某种产品的广告费支出x 与销售额y (单位:万元)之间的关系如下表:y 与x 的线性回归方程为y =6.5x +17.5,当广告支出5万元时,随机误差的效应(残差)为________.解析:因为y 与x 的线性回归方程为y ^=6.5x +17.5,当x =5时,y ^=50,当广告支出5万元时,由表格得:y =60,故随机误差的效应(残差)为60-50=10. 答案:106.若一组观测值(x 1,y 1),(x 2,y 2),…,(x n ,y n )之间满足y i =bx i +a +e i (i =1,2,…,n ),且e i 恒为0,则R 2为________.解析:由e i 恒为0,知y i =y ^i ,即y i -y ^i =0, 故R 2=1-∑ni =1 (y i -y ^i )2∑n i =1 (y i -y )2=1-0=1.答案:17.某个服装店经营某种服装,在某周内获纯利y (元)与该周每天销售这种服装件数x 之间的一组数据关系见表:已知∑7i =1x 2i =280,∑7i =1x i y i =3 487. (1)求x ,y ;(2)已知纯利y 与每天销售件数x 线性相关,试求出其回归方程. 解:(1)x =3+4+5+6+7+8+97=6,y =66+69+73+81+89+90+917=5597.(2)因为y 与x 有线性相关关系,所以b ^=∑7i =1x i y i-7x y ∑7i =1x 2i -7x 2=3 487-7×6×5597280-7×36=4.75,a ^=5597-6×4.75=71914≈51.36.故回归方程为y ^=4.75 x +51.36.8.已知某校5个学生的数学和物理成绩如下表:(1)假设在对这5名学生成绩进行统计时,把这5名学生的物理成绩搞乱了,数学成绩没出现问题,问:恰有2名学生的物理成绩是自己的实际分数的概率是多少?(2)通过大量事实证明发现,一个学生的数学成绩和物理成绩具有很强的线性相关关系,在上述表格是正确的前提下,用x 表示数学成绩,用y 表示物理成绩,求y 与x 的回归方程; (3)利用残差分析回归方程的拟合效果,若残差和在(-0.1,0.1)范围内,则称回归方程为“优拟方程”,问:该回归方程是否为“优拟方程”?参考数据和公式:y ^=b ^x +a ^,其中.解:(1)记事件A 为“恰有2名学生的物理成绩是自己的实际成绩”, 则P (A )=2C 25A 55=16.(2)因为x =80+75+70+65+605=70,y =70+66+68+64+625=66,学生的编号i 1 2 3 4 5 数学x i 80 75 70 65 60 物理y i7066686462[B 能力提升]9.假设关于某设备的使用年限x和所支出的维修费用y(万元)有如表的统计资料:使用年限x 2 3 4 5 6 维修费用y 2.2 3.8 5.5 6.5 7.010.(选做题)某地区不同身高的未成年男性的体重平均值如表所示:身高x(cm)60708090100110体重y(kg) 6.137.909.9912.1515.0217.50身高x(cm)120130140150160170体重y(kg)20.9226.8631.1138.8547.2555.05 (1)(2)如果体重超过相同身高男性体重平均值的1.2倍为偏胖,低于0.8倍为偏瘦,那么这个地区一名身高175 cm 、体重82 kg 的在校男生体重是否正常? 解:(1)根据题表中的数据画出散点图如图所示.由图可看出,样本点分布在某条指数函数曲线y =c 1e c 2x的周围, 于是令z =ln y ,得下表:x 60 70 80 90 100 110 z 1.81 2.07 2.30 2.50 2.71 2.86 x 120 130 140 150 160 170 z3.043.293.443.663.864.01作出散点图如图所示:由表中数据可得z 与x 之间的回归直线方程为 z ^=0.662 5+0.020x ,则有y ^=e 0.662 5+0.020x .(2)当x =175时,预报平均体重为y ^=e 0.662 5+0.020×175≈64.23, 因为64.23×1.2≈77.08<82,所以这个男生偏胖.。
数学课后训练:回归分析的基本思想及其初步应用
课后训练一、选择题1.为了考察两个变量x和y之间的线性相关性,甲、乙两位同学各自独立地做了100次和150次试验,并且利用线性回归方法,求得回归直线分别为l1和l2.已知两个人在试验中发现对变量x的观测数据的平均值都是s,对变量y的观测数据的平均值都是t,那么下列说法正确的是()A.l1和l2有交点(s,t)B.l1与l2相交,但交点不一定是(s,t)C.l1与l2必定平行D.l1与l2必定重合2.下列四个命题中正确的是( )①在线性回归模型中,e是bx+a预报真实值y的随机误差,它是一个观测的量;②残差平方和越小的模型,拟合的效果越好;③用R2来刻画回归方程,R2越小,拟合的效果越好;④在残差图中,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,若带状区域宽度越窄,说明拟合精度越高,回归方程的预报精度越高.A.①③B.②④C.①④D.②③3.已知x,y取值如下表:若x,y y=0.95x+a,则a=( )A.0.325 B.2。
6C.2。
2 D.04.某学校开展研究性学习活动,某同学获得一组实验数据如下表:对于表中数据,( )A .y =2x -2B .12xy ⎛⎫= ⎪⎝⎭C .y =log 2xD .y =12(x 2-1)5.若某地财政收入x 与支出y 满足线性回归方程y =bx +a +e (单位:亿元),其中b =0.8,a =2,|e |≤0。
5.如果今年该地区财政收入10亿元,年支出预计不会超过( )A .10亿B .9亿C .10.5亿D .9.5亿6.某产品的广告费用x 与销售额y 的统计数据如下表:y bx a =+b 费用为6万元时销售额为( )A .63.6万元B .65。
5万元C .67.7万元D .72.0万元 二、填空题7.在研究身高和体重的关系时,求得R 2≈______,可以叙述为“身高解释了64%的体重变化,而随机误差贡献了剩余的36%”,所以身高对体重的效应比随机误差的效应大得多.8.为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x(单位:小时)与当天投篮命中率y之间的关系:小李这5的方法,预测小李该月6号打6小时篮球的投篮命中率为__________.三、解答题9.恩格尔系数=食物支出金支出金额总额×100%.在我国,据恩格尔系数判定生活发展阶段的标准为:贫困:>60%,温饱:50%~60%,小康:40%~50%,富裕:<40%.据国家统计局统计显示,随着中国经济的不断发展,城镇居民家庭恩格尔系数不断下降,居民消费已从温饱型向享受型、发展型转变.如下表:(2)预报2013年的恩格尔系数;(3)求R2;(4)作出残差图.10.关于x与y有以下数据:已知x与y 6.5b ,(1)求y与x的线性回归方程;(2)现有第二个线性模型:y=7x+17,且R2=0。
回归分析基本思想及应用条件
回归分析基本思想及应用条件回归分析是一种常用的统计分析方法,用于研究变量之间的关系,并预测一个或多个自变量对因变量的影响。
本文将介绍回归分析的基本思想以及应用条件。
一、回归分析的基本思想回归分析的基本思想是基于最小二乘法,通过拟合曲线或平面,找到自变量与因变量之间的最佳关系模型。
这个模型可以用来预测因变量在给定自变量的情况下的取值。
回归分析的思想可以用以下数学公式表示:Y = β0 + β1X1 + β2X2 + ... + βnXn + ε其中,Y表示因变量,X1~Xn表示自变量,β0~βn表示回归系数,ε表示误差项。
回归分析的目标是通过最小化误差项来确定回归系数的值,使得拟合曲线与实际观测值之间的误差最小化。
二、回归分析的应用条件回归分析适用于以下条件:1. 自变量与因变量之间存在线性关系:回归分析假设自变量与因变量之间存在线性关系。
因此,在应用回归分析之前,需要通过观察数据和作图等方式来验证自变量与因变量之间的线性关系。
2. 自变量之间相互独立:回归分析要求自变量之间相互独立,即自变量之间不应存在多重共线性的问题。
多重共线性会导致回归系数的估计出现问题,降低模型的准确性。
3. 自变量和误差项之间不存在系统性关联:回归分析假设误差项与自变量之间不存在系统性关联。
如果存在系统性关联,会导致回归系数的估计出现偏差,影响模型的准确性。
4. 数据具有代表性:回归分析要求样本数据具有代表性,能够反映总体的特征。
因此,在进行回归分析之前,需要对样本数据的采集方法和样本容量进行科学设计,以确保数据的可靠性和准确性。
5. 误差项满足正态分布:回归分析假设误差项满足正态分布。
如果误差项不满足正态分布,可能会导致回归系数的估计出现偏差,使得模型的准确性降低。
总之,回归分析是一种重要的统计分析方法,可以用于研究变量之间的关系并进行预测。
但在应用回归分析时,需要注意以上提到的应用条件,以保证分析结果的准确性和可靠性。
2019-2020学年高中数学(人教版选修1-2)课时跟踪检测(一) 回归分析的基本思想及其初步应用 Word版含答
课时跟踪检测(一) 回归分析的基本思想及其初步应用一、选择题1.(重庆高考)已知变量x 与y 正相关,且由观测数据算得样本平均数x -=3,y -=3.5,则由该观测数据算得的线性回归方程可能为( )A.y ^=0.4x +2.3 B.y ^=2x -2.4 C.y ^=-2x +9.5D.y ^=-0.3x +4.4解析:选A 依题意知,相应的回归直线的斜率应为正,排除C 、D.且直线必过点(3,3.5),代入A 、B 得A 正确.2.甲、乙、丙、丁四位同学在建立变量x ,y 的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R 2分别如下表:建立的回归模型拟合效果最好的同学是( ) A .甲 B .乙 C .丙D .丁解析:选A 相关指数R 2越大,表示回归模型拟合效果越好.3.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系.根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71.则下列结论中不正确的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x -,y -)C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg解析:选D 回归方程中x 的系数为0.85>0,因此y 与x 具有正的线性相关关系,A 正确; 由回归方程系数的意义可知回归直线过样本点的中心(x -,y -),B 正确;依据回归方程中b ^的含义可知,x 每变化1个单位,y ^相应变化约0.85个单位,C 正确; 用回归方程对总体进行估计不能得到肯定结论,故D 不正确.4.甲、乙、丙、丁4位同学各自对A ,B 两变量做回归分析,分别得到散点图与残差平方和 i =1n(y i -y ^i )2,如下表:哪位同学的试验结果体现拟合A ,B 两变量关系的模型拟合精度高?( ) A .甲 B .乙 C .丙D .丁解析:选D 从题中的散点图上来看,丁同学的散点图中的点更加近似在一条直线附近;从残差平方和来看,丁同学的最小,说明拟合精度最高.5.(福建高考)已知x 与y 之间的几组数据如下表:假设根据上表数据所得线性回归直线方程为y =b x +a ,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( )A.b ^>b ′,a ^>a ′ B.b ^>b ′,a ^<a ′ C.b ^<b ′,a ^>a ′D.b ^<b ′,a ^<a ′解析:选C 由两组数据(1,0)和(2,2)可求得直线方程为y =2x -2,b ′=2,a ′=-2. 而利用线性回归方程的公式与已知表格中的数据,可求得b ^=∑i =16xiyi -6x - y-∑i =16x2i -6x -2=58-6×72×13691-6×⎝ ⎛⎭⎪⎫722=57,a ^=y --b ^x -=136-57×72=-13,所以b ^<b ′,a ^>a ′. 二、填空题6.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为_________.解析:根据样本相关系数的定义可知,当所有样本点都在直线上时,相关系数为1. 答案:17.某咖啡厅为了了解热饮的销售量y (个)与气温x (℃)之间的关系,随机统计了某4天的销售量与气温,并制作了对照表:由表中数据,得线性回归方程y =-2x +a .当气温为-4 ℃时,预测销售量约为________.解析:∵x =14(18+13+10-1)=10,y =14(24+34+38+64)=40,∴40=-2×10+a ,∴a =60,当x =-4时,y =-2×(-4)+60=68.答案:688.关于x 与y 有如下数据:为了对x ,y 两个变量进行统计分析,现有以下两种线性模型:甲:y ^=6.5x +17.5,乙:y ^=7x +17,则____________(填“甲”或“乙”)模型拟合的效果更好.解析:设甲模型的相关指数为R 21,则R 21=1-∑i =15-y ^∑i =15 -y-=1-1551 000=0.845;设乙模型的相关指数为R 2, 则R 2=1-1801 000=0.82.因为0.845>0.82,即R 21>R 2, 所以甲模型拟合效果更好. 答案:甲 三、解答题9.(新课标全国卷Ⅱ)某地区2007年至2013年农村居民家庭人均纯收入y (单位:千元)的数据如下表:(1)求y (2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为b ^=∑i =1n-t--y-∑i =1n-t-,a ^=y --b ^t -.解:(1)由所给数据计算得t -=17×(1+2+3+4+5+6+7)=4,y -=17×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,∑i =17 (t i -t -)2=9+4+1+0+1+4+9=28,∑i =17 (t i -t -)(y i -y -)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,b ^=∑i =17-t--y-∑i =17-t-=1428=0.5, a ^=y --b ^t -=4.3-0.5×4=2.3, 所求回归方程为y ^=0.5t +2.3.(2)由(1)知,b ^=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.将2015年的年份代号t =9代入(1)中的回归方程,得y ^=0.5×9+2.3=6.8, 故预测该地区2015年农村居民家庭人均纯收入为6.8千元.10.(全国丙卷)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明;(2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.参考数据:∑i =17y i =9.32,∑i =17t i y i =40.17,∑i =17-y =0.55,7≈2.646.参考公式:相关系数r=∑i =1n-t-y ∑i =1n-t2∑i =1n-y,回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为b ^=∑i =1n-t-y∑i =1n-t,a ^=y -b ^t .解:(1)由折线图中的数据和附注中的参考数据得t =4,∑i =17(t i -t )2=28,∑i =17-y =0.55,∑i =17 (t i -t )(y i -y )=∑i =17t i y i -t ∑i =17y i =40.17-4×9.32=2.89,∴r ≈2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当大,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1)得 b ^=∑i =17-t -y∑i =17-t=2.8928≈0.103. a ^=y -b ^t ≈1.331-0.103×4≈0.92. 所以y 关于t 的回归方程为y ^=0.92+0.10t .将2016年对应的t =9代入回归方程得y ^=0.92+0.10×9=1.82. 所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.。
人教版选修【1-2】1.1《回归分析的基本思想及其初步应用》习题及答案
数学·选修1-2(人教A版)1.1回归分析的基本思想及其初步应用►达标训练1.下列结论正确的是( )①函数关系是一种确定性关系;②相关关系是一种非确定性关系;③回归分析是对具有函数关系的两个变量进行统计分析的一种方法;④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.A.①② B.①②③C.①②④ D.①②③④解析:根据函数关系、相关关系、回归关系的概念可知选C.答案:C2.在回归分析中,代表了数据点和它在回归直线上相应位置的差异的是()A.总偏差平方和 B.残差平方和C.回归平方和 D.相关指数R2答案:B3.下表是某工厂6~9月份用电量(单位:万度)的一组数据:月份x 6789用电量y 653 2由散点图可知,用电量y与月份x间有较好的线性相关关系,其线性回归直线方程是错误!=-1。
4x+a,则a等于( )A.10.5 B.5。
25C.5。
2 D.14。
5解析:答案:D4.(2013·广东四校联考)某产品的广告费用x与销售额y的统计数据如下表:广告费用x(万元)423 5销售额y(万元)49263954根据上表可得回归方程错误!=错误!x+错误!中的错误!为9.4,据此模型预报广告费用为6万元时销售额为()A.63。
6万元 B.65.5万元C.67.7万元 D.72.0万元答案:B5.设(x1,y1),(x2,y2),…,(xn,yn)是变量x和y的n 个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归直线(如右图),以下结论正确的是()A.直线l过点(错误!,错误!)B.x和y的相关系数为直线l的斜率C.x和y的相关系数在0到1之间D.当n为偶数时,分布在l两侧的样本点的个数一定相同答案:A6.两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是( ) A.模型1:相关指数R2为0。
98B.模型2:相关指数R2为0。
知识讲解-回归分析的基本思想及其初步应用(文、理)
回归分析的基本思想及其初步应用【学习目标】1. 通过对实际问题的分析,了解回归分析的必要性与回归分析的一般步骤。
2. 能作出散点图,能求其回归直线方程。
3. 会用所学的知识对简单的实际问题进行回归分析。
【要点梳理】要点一、变量间的相关关系1. 变量与变量间的两种关系:〔1〕 函数关系:这是一种确定性的关系,即一个变量能被另一个变量按照某种对应法则唯一确定.例如圆的面积.S 与半径r 之间的关系S=πr 2为函数关系.〔2〕相关关系:这是一种非确定性关系.当一个变量取值一定时,另一个变量的取值带有一定的随机性,这两个变量之间的关系叫做相关关系。
例如人的身高不能确定体重,但一般来说“身高者,体重也重”,我们说身高与体重这两个变量具有相关关系. 2. 相关关系的分类:〔1〕在两个变量中,一个变量是可控制变量,另一个变量是随机变量,如施肥量与水稻产量; 〔2〕两个变量均为随机变量,如某学生的语文成绩与化学成绩. 3. 散点图:将两个变量的各对数据在直角坐标系中描点而得到的图形叫做散点图.它直观地描述了两个变量之间有没有相关关系.这是我们判断的一种依据.4. 回归分析:与函数关系不同,相关关系是一种非确定性关系,对具有相关关系的两个变量进行统计分析的方法叫做回归分析。
要点二、线性回归方程:1.回归直线如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线。
2.回归直线方程ˆˆˆybx a =+ 对于一组具有线性相关关系的数据11(,)x y ,22(,)x y ,……,(,)n n x y ,其回归直线ˆˆˆybx a =+的截距和斜率的最小二乘法估计公式分别为:121()()ˆ()niii nii x x y y bx x ==--=-∑∑,ˆˆay bx =- 其中x 表示数据x i 〔i=1,2,…,n 〕的均值,y 表示数据y i 〔i=1,2,…,n 〕的均值,xy 表示数据x i y i 〔i=1,2,…,n 〕的均值.a 、b 的意义是:以a 为基数,x 每增加一个单位,y 相应地平均变化b 个单位.要点诠释:①回归系数121()()ˆ()niii nii x x y y bx x ==--=-∑∑,也可以表示为1221ˆni ii nii x y nx ybxnx==-=-∑∑,这样更便于实际计算。
3.1回归分析的基本思想及其初步应用
(3)由经验确定回归方程的类型(如我们观察到数据呈 线性关系,则选用线性回归方程). ( 4)按 一 定 规 则 ( 如 最 小 二 乘 法 )估 计 回 归 方 程 中 的 参 数 .
(5)得出结果后分析残差图是否有异常(如个别数据对 应残差过大,残差呈现不随机的规律性等),若存在异常, 则检查数据是否有误,或模型是否合适等.
对于一组具有线性相关关系的数据
x1, y1 ,x2, y2 ,,xn , yn ,
我们知道其回归直线y = bx + a的斜率和截距 的最小二乘估计分别为
n
xi x yi y
bˆ i1 n
,
1
aˆ y bˆx,
2
xi x 2
i 1
这正是我们所要推导的公式.
下面我们通过案例 ,进一步学习回归分析的基本 思想及其应用.
例1 从某大学中随机选取8名女大学生,其身高和体 重数据如表 3-1所示.
表 3-1 编号 1 2 3 4 5 6 7 8
身 高 / cm 165 165 157 170 175 165 155 170 体 重 /kg 48 57 50 54 64 61 43 59
4.不能期望回归方程得到的预报值就是预报变量的 精 确 值.事 实 上, 它 是 预 报 变 量 的 可 能 取 值 的 平 均 值. 一 般 地 ,建 立 回 归 模 型 的 基 本 步 骤 为 :
( 1)确 定 研 究 对 象 ,明 确 哪 个 变 量 是 解 释 变 量 ,哪 个 变 量是预报变量. ( 2)画 出 解 释 变 量 和 预 报 变 量 的 散 点 图 ,观 察 它 们 之 间
第三章 统计案例
人教A版高中数学选修2-3 回归分析的基本思想及其初步应用 跟踪练习及答案解析
回归分析的基本思想及其初步应用 跟踪练习一、选择题1.为了研究变量x 和y 的线性相关性,甲、乙两人分别利用线性回归方法得到回归直线l 1和l 2,已知两人计算过程中x -,y -分别相同,则下列说法正确的是( )A .l 1与l 2一定平行B .l 1与l 2重合C .l 1与l 2相交于点(x -,y -)D .无法判断l 1和l 2是否相交2.甲、乙、丙、丁四位同学在建立变量x ,y 的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R 2分别如下表:A .甲B .乙C .丙D .丁3.对变量x ,y 进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是( )4.对于指数曲线y =a e bx ,令U =ln y ,c =ln a ,经过非线性化回归分析后,可转化的形式为( )A .U =c +bxB .U =b +cxC .y =c +bxD .y =b +cx5.为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如表所示:则y对xA.y^=x-1B.y^=x+1C.y^=88+12x D.y^=176二、填空题6.甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性进行分析,并用回归分析的方法分别求得相关指数R2与残差平方和Q(a^,b^)如下表:则能体现A,B两个变量有更强的线性相关性的为________.7.在对两个变量进行回归分析时,甲、乙分别给出两个不同的回归方程,并对回归方程进行检验.对这两个回归方程进行检验时,与实际数据(个数)对比结果如下:则从表中数据分析,________回归方程更好(即与实际数据更贴近).8.如果某地的财政收入x与支出y满足线性回归方程y=bx+a+e(单位:亿元),其中b=0.8,a=2,|e|≤0.5,如果今年该地区财政收入为10亿元,则年支出预计不会超过________亿元.三、解答题9.某服装店经营某种服装,在某周内纯获利y(元)与该周每天销售这种服装件数x之间的一组数据如下表:(1)(2)画出散点图;(3)求纯获利y与每天销售件数x之间的回归方程.10.为了研究某种细菌随时间x变化繁殖个数y的变化,收集数据如下:(1)(2)求y与x之间的回归方程.[能力提升题]1.某学生四次模拟考试中,其英语作文的减分情况如表:显然所减分数y()A.y=0.7x+5.25 B.y=-0.6x+5.25C.y=-0.7x+6.25 D.y=-0.7x+5.252.某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据:若x与y具有线性相关关系,则线性回归方程为________.3.某品牌服装专卖店为了解保暖衬衣的销售量y(件)与平均气温x(℃)之间的关系,随机统计了连续四旬的销售量与当旬平均气温,其数据如表:由表中数据算出线性回归方程y=b x+a中的b=-2,样本中心点为(10,38).(1)表中数据m=__________.(2)气象部门预测三月中旬的平均气温约为22 ℃,据此估计,该品牌的保暖衬衣在三月中旬的销售量约为__________件.回归分析的基本思想及其初步应用 跟踪练习答案一、选择题1.【解析】 回归直线一定过样本点的中心(x -,y -),故C 正确. 【答案】 C2.【解析】 相关指数R 2越大,表示回归模型的拟合效果越好. 【答案】 A3.【解析】 用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越窄,说明模型的拟合精度越高.【答案】 A4.【解析】 由y =a e bx 得ln y =ln(a e bx ),∴ln y =ln a + ln e bx ,∴ln y =ln a +bx ,∴U =c +bx .故选A. 【答案】 A5.【解析】 设y 对x 的线性回归方程为y ^=b ^x +a ^,因为b ^=-2×(-1)+0×(-1)+0×0+0×1+2×1(-2)2+22=12,a ^=176-12×176=88,所以y对x 的线性回归方程为y ^=12x +88.【答案】 C 二、填空题6.【解析】 丁同学所求得的相关指数R 2最大,残差平方和Q (a ^,b ^)最小.此时A ,B 两变量线性相关性更强.【答案】 丁7.【解析】 可以根据表中数据分析,两个回归方程对数据预测的正确率进行判断,甲回归方程的数据准确率为3240=45,而乙回归方程的数据准确率为4060=23.显然甲的准确率高些,因此甲回归方程好些.【答案】 甲8.【解析】 ∵x =10时,y =0.8×10+2+e =10+e ,∵|e |≤0.5,∴y ≤10.5. 【答案】 10.5 三、解答题9.【解】 (1)x -=6,y -≈79.86,样本点的中心为(6,79.86). (2)散点图如下:(3)因为b ^=∑i =17(x i -x -)(y i -y -)∑i =17 (x i -x -)2≈4.75,a ^=y --b ^x -≈51.36,所以y ^=4.75x +51.36.10.【解】 (1)散点图如图所示:(2)由散点图看出样本点分布在一条指数函数y =c 1e c 2x 的周围,于是令z =ln y ,则由计算器算得,z =0.69x +1.112,则有y =e 0.69x +1.112.[能力提升题]1.【解析】 由题意可知,所减分数y 与模拟考试次数x 之间为负相关,所以排除A. 考试次数的平均数为x =14(1+2+3+4)=2.5,所减分数的平均数为y =14(4.5+4+3+2.5)=3.5,即直线应该过点(2.5,3.5),代入验证可知直线y =-0.7x +5.25成立,故选D. 【答案】 D2.【解析】 y i =6×2+8×3+10×5+12×6=158,x -=6+8+10+124=9,y -=2+3+5+64=4,2i =62+82+102+122=344,b ^=158-4×9×4344-4×92=1420=0.7,a ^=y --b ^x -=4-0.7×9=-2.3, 故线性回归方程为y ^=0.7x -2.3. 【答案】 y ^=0.7x -2.33.【解析】 (1)由y =38,得m =40. (2)由a ^=y -b ^ x ,得a ^=58, 故y ^=-2x +58, 当x =22时,y ^=14,故三月中旬的销售量约为14件. 【答案】 (1)40 (2)14。
课时作业2:1.1 回归分析的基本思想及其初步应用
第一章统计案例1.1 回归分析的基本思想及其初步应用一、基础达标1.在下列各量之间,存在相关关系的是()①正方体的体积与棱长之间的关系;②一块农田的水稻产量与施肥量之间的关系;③人的身高与年龄之间的关系;④家庭的支出与收入之间的关系;⑤某户家庭用电量与电价之间的关系.A.②③B.③④C.④⑤D.②③④答案 D2.设某大学的女生体重y(单位:kg)与身高x(单位:cm)有线性相关关系,根据一组样本数据(x i,y i)(i=1,2,…,n),用最小二乘法建立的回归方程为y^=0.85x-85.71,下列结论中不正确的是()A.y与x具有正的线性相关关系B.回归直线过样本点的中心(x,y)C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kgD.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg答案 D^=0.85x-85.71知y随x的增大而增大,所以y与x具解析由回归方程为y^=b^x+a^=b^x+有正的线性相关关系;由最小二乘法建立回归方程的过程知yy-b^x(a^=y-b^x),所以回归直线过样本点的中心(x,y);利用回归方程可以估计总体,所以D不正确.3.某产品的广告费用x与销售额y的统计数据如下表:广告费用x(万元)423 5销售额y (万元) 49 26 39 54根据上表可得回归方程y ^=b ^x +a ^中的b ^为9.4,据此模型预报广告费用为6万元时销售额为( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元答案 B 解析 ∵x =4+2+3+54=72,y =49+26+39+544=42, 又y ^=b^x +a ^必过(x ,y ),∴42=72×9.4+a ^,∴a ^=9.1.∴线性回归方程为y ^=9.4x +9.1.∴当x =6(万元)时,y ^=9.4×6+9.1=65.5(万元).4.甲、乙、丙、丁四位同学各自对A ,B 两变量做回归分析,分别得到散点图与残差平方和 i =1n(y i -y ^i )2如下表甲 乙 丙 丁散点图残差平方和115106124103( )A .甲B .乙C .丙D .丁答案 D5.如果散点图的所有点都在一条直线上,则残差均为________,残差平方和为________,相关指数为________. 答案 0 0 16.对具有线性相关关系的变量x 和y ,由测得的一组数据求得回归直线的斜率为6.5,且恒过(2,3)点,则这条回归直线的方程为________.答案y^=-10+6.5x解析由题意知x=2,y=3,b^=6.5,所以a^=y-b^x=3-6.5×2=-10,即回归直线的方程为y^=-10+6.5x.7.某个服装店经营某种服装,在某周内纯获利y(元)与该周每天销售这种服装件数x之间的一组数据如下表:x 3456789y 66697381899091(1)求样本中心点;(2)画出散点图;(3)求纯获利y与每天销售件数x之间的回归方程.解(1)x=6,y=79.86,中心点(6,79.86).(2)散点图如下:(3)因为b^=∑i=17(x i-x)(y i-y)∑i=17(x i-x)2≈4.75,a^=y-b^x≈51.36,所以y^=4.75x+51.36.二、能力提升8.(2013·福建)已知x与y之间的几组数据如下表:x 12345 6y 02133 4假设根据上表数据所得线性回归直线方程为y^=b^x+a^.若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y=b′x+a′,则以下结论正确的是() A.b^>b′,a^>a′B.b^>b′,a^<a′C.b^<b′,a^>a′D.b^<b′,a^<a′答案 C解析x=1+2+3+4+5+66=72,y=0+2+1+3+3+46=136,b^=∑i=1nx i y i-n x y∑i=1nx2i-n x2=57,a^=y-b^x=-1 3,b′=2-02-1=2>b^,a′=-2<a^.9.下表是x和y之间的一组数据,则y关于x的回归方程必过()x 123 4y 1357A.点(2,3) B.点(1.5,4)C.点(2.5,4) D.点(2.5,5)答案 C解析回归方程必过样本点的中心(x,y),即(2.5,4).10.如图是x和y的一组样本数据的散点图,去掉一组数据________后,剩下的4组数据的相关指数最大.答案D(3,10)解析去掉D(3,10)这一组数据后,其他4组数据对应的点都集中在某一条直线附近,即两变量的线性相关性最强,此时相关指数最大.11.某地最近十年粮食需求量逐年上升,下表是部分统计数据:(1)利用所给数据求年需求量与年份之间的回归直线方程y=b x+a;(2)利用(1)中所求出的直线方程预测该地2012年的粮食需求量.解(1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来求回归直线方程,先将数据处理如下:对处理的数据,容易算得x=0,y=3.2,b^=(-4)×(-21)+(-2)×(-11)+2×19+4×29-5×0×3.2(-4)2+(-2)2+22+42-5×02=26040=6.5,a^=y-b^x=3.2.由上述计算结果,知所求回归直线方程为y^-257=6.5(x-2 006)+3.2.即y^=6.5(x-2 006)+260.2.(2)利用所求得的直线方程,可预测2012年的粮食需求量为6.5×(2 012-2006)+260.2=6.5×6+260.2=299.2(万吨).12.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:(1)求回归直线方程y=b x+a,其中b=-20,a=y-b x(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入—成本)解 (1)x =8+8.2+8.4+8.6+8.8+96=8.5,y =16(90+84+83+80+75+68)=80∵b ^=-20,a ^=y ^-b ^x ,∴a^=80+20×8.5=250 ∴回归直线方程y ^=-20x +250;(2)设工厂获得的利润为L 元,则L =x (-20x +250)-4(-20x +250)=-20(x -334)2+361.25 ∴该产品的单位应定为334元,工厂获得的利润最大. 三、探究与创新13.(2013·重庆)从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,算得∑i =110x i =80,∑i =110y i =20,∑i =110xi y i =184,∑i =110x 2i =720.(1)求家庭的月储蓄y 对月收入x 的线性回归方程y ^=b ^x +a ^; (2)判断变量x 与y 之间是正相关还是负相关;(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.附:线性回归方程y ^=b^x +a ^中,b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a^=y -b x ,其中x ,y 为样本平均值. 解 (1)由题意知n =10,x =1n ∑i =1n x i =8010=8,y =1n ∑i =1n y i =2010=2,又l xx =∑i =1nx 2i -n x 2=720-10×82=80,l xy =∑i =1nx i y i -n x y =184-10×8×2=24,由此得b^=l xy l xx=2480=0.3,a ^=y -b ^x =2-0.3×8=-0.4,故所求回归方程为y ^=0.3x -0.4.(2)由于变量y 的值随x 的值增加而增加(b =0.3>0),故x 与y 之间是正相关. (3)将x =7代入回归方程可以预测该家庭的月储蓄为y ^=0.3×7-0.4=1.7(千元).。
回归分析的基本思想及其初步应用课时作业2020-2021学年高二下学期数学北师大版选修1-2第一章
课时作业1 回归分析的基本思想及其初步应用时间:45分钟 分值:100分一、选择题(每小题6分,共计36分)1.四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^ =-3.476x +5.648; ③y 与x 正相关且y ^ =5.437x +8.493; ④y 与x 正相关且y ^ =-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④D .①④2.由一组样本数据(x 1,y 1),(x 2,y 2),(x 3,y 3),…,(x n ,y n )得到的线性回归方程为y ^=b ^x +a ^,下列说法不正确的是( )A .直线y ^=b ^x +a ^必经过点(x ,y )B .直线y ^=b ^x +a ^至少过点(x 1,y 1),(x 2,y 2),…,(x n ,y n )中的一个C .直线y ^=b ^x +a ^的斜率为∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2D .直线y ^=b ^x +a ^是坐标平面上与各点(x 1,y 1),(x 2,y 2),…,(x n ,y n )偏差最小的直线3.两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的R 2如下,其中拟合效果最好的模型是( )A .模型1的R 2为0.98B .模型2的R 2为0.80C .模型3的R 2为0.50D .模型4的R 2为0.254.下列说法不正确的是( )A .回归分析中,R 2的值越大,说明残差平方和越小B .若一组观测值(x 1,y 1),(x 2,y 2),…,(x n ,y n )满足y i =bx i +a +e i (i =1,2,…,n ),若e i 恒为0,则R 2=1C .回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法D .画残差图时,纵坐标为残差,横坐标一定是编号5.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg6.变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r 1表示变量Y 与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则( )A .r 2<r 1<0B .0<r 2<r 1C .r 2<0<r 1D .r 2=r 1二、填空题(每小题8分,共计24分)7.某种产品的广告费支出x 与销售额y (单位:万元)之间有下表关系y 与x 的线性回归方程为y ^=6.5x +17.5,当广告支出5万元时,随机误差的效应(残差)为________. 8.在研究身高和体重的关系时,求得相关指数R 2≈________,可以叙述为“身高解释了64%的体重变化,而随机误差贡献了剩余的36%”,所以身高对体重的效应比随机误差的效应大得多.9.已知一系列样本点(x i ,y i )(i =1,2,3,…,n )的回归直线方程为y ^=2x +a ^,若样本点(r,1)与(1,s )的残差相同,则r 和s 的关系为________.三、解答题(共计40分)10.(10分)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:(1)求回归直线方程y =bx +a ,其中b =-20,a =y -b x ;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)11.(15分)以下资料是一位销售经理收集到的每年销售额y (千元)和销售经验x (年)的关系:(1)依据这些数据画出散点图并作直线y ^=78+4.2x ,计算∑i =110(y i -y ^i )2;(2)依据这些数据求回归直线方程并据此计算∑i =110(y i -y ^i )2;(3)比较(1)(2)中的残差平方和∑i =110(y i -y ^i )2的大小.12.(15分)在试验中得到变量y 与x 的数据如下表:课时作业1 回归分析的基本思想及其初步应用时间:45分钟 分值:100分一、选择题(每小题6分,共计36分)1.四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^ =-3.476x +5.648; ③y 与x 正相关且y ^ =5.437x +8.493; ④y 与x 正相关且y ^ =-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④D .①④解析:正相关指的是y 随x 的增大而增大,负相关指的是y 随x 的增大而减小,故不正确的为①④,故选D.答案:D2.由一组样本数据(x 1,y 1),(x 2,y 2),(x 3,y 3),…,(x n ,y n )得到的线性回归方程为y ^=b ^x +a ^,下列说法不正确的是( )A .直线y ^=b ^x +a ^必经过点(x ,y )B .直线y ^ =b ^ x +a ^至少过点(x 1,y 1),(x 2,y 2),…,(x n ,y n )中的一个C .直线y ^=b ^x +a ^的斜率为∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2D .直线y ^=b ^x +a ^是坐标平面上与各点(x 1,y 1),(x 2,y 2),…,(x n ,y n )偏差最小的直线解析:由回归直线方程可知,由一组样本数据(x 1,y 1),(x 2,y 2),(x 3,y 3),…,(x n ,y n )得到的回归直线方程y ^=b ^x +a ^,不一定要经过这些数据点,可以在回归直线方程的附近,因此,B 的说法是不正确的.答案:B3.两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的R 2如下,其中拟合效果最好的模型是( )A .模型1的R 2为0.98B .模型2的R 2为0.80C .模型3的R 2为0.50D .模型4的R 2为0.25解析:R 2的值越大,说明模型拟合效果越好,故选A. 答案:A4.下列说法不正确的是( )A .回归分析中,R 2的值越大,说明残差平方和越小B .若一组观测值(x 1,y 1),(x 2,y 2),…,(x n ,y n )满足y i =bx i +a +e i (i =1,2,…,n ),若e i 恒为0,则R 2=1C .回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法D .画残差图时,纵坐标为残差,横坐标一定是编号解析:残差图中横坐标可以是样本编号,也可以是身高数据,还可以是体重估计值等,故选D. 答案:D5.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg解析:D 选项中,若该大学某女生身高为170 cm ,则可断定其体重约为:0.85×170-85.71=58.79 kg.故D 不正确.答案: D6.变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r 1表示变量Y 与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则( )A .r 2<r 1<0B .0<r 2<r 1C .r 2<0<r 1D .r 2=r 1解析:画散点图,由散点图可知X 与Y 是正相关,则相关系数r 1>0,U 与V 是负相关,相关系数r 2<0,故选C.答案:C二、填空题(每小题8分,共计24分)7.某种产品的广告费支出x 与销售额y (单位:万元)之间有下表关系y 与x 的线性回归方程为y ^=6.5x +17.5,当广告支出5万元时,随机误差的效应(残差)为________. 解析:因为y 与x 的线性回归方程为y ^=6.5x +17.5,当x =5时,y ^=50,当广告支出5万元时,由表格得:y =60,故随机误差的效应(残差)为60-50=10.答案:108.在研究身高和体重的关系时,求得相关指数R 2≈________,可以叙述为“身高解释了64%的体重变化,而随机误差贡献了剩余的36%”,所以身高对体重的效应比随机误差的效应大得多.解析:R 2≈0.64表示“身高解释了64%的体重变化”或者说体重差异有64%是由身高引起的. 答案:0.649.已知一系列样本点(x i ,y i )(i =1,2,3,…,n )的回归直线方程为y ^=2x +a ^,若样本点(r,1)与(1,s )的残差相同,则r 和s 的关系为________.解析:由残差的定义可得,1-(2r +a ^)=s -(2+a ^),化简得,s =3-2r . 答案:s =3-2r 三、解答题(共计40分)10.(10分)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:(1)求回归直线方程y =bx +a ,其中b =-20,a =y -b x ;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)解:(1)x =8+8.2+8.4+8.6+8.8+96=8.5, y =16(90+84+83+80+75+68)=80 ∵b =-20,a =y ^-bx ^, ∴a =80+20×8.5=250, ∴回归直线方程为 y ^=-20x +250. (2)设工厂获得的利润为L 元,则L =x (-20x +250)-4(-20x +250)=-20(x -334)2+361.25, ∴该产品的单价应定为334元,工厂获得的利润最大.11.(15分)以下资料是一位销售经理收集到的每年销售额y (千元)和销售经验x (年)的关系:(1)依据这些数据画出散点图并作直线y ^=78+4.2x ,计算∑i =110(y i -y ^i )2;(2)依据这些数据求回归直线方程并据此计算∑i =110(y i -y ^i )2;(3)比较(1)(2)中的残差平方和∑i =110(y i -y ^i )2的大小.解:(1)散点图与直线y ^=78+4.2x 的图形如图, 对x =1,3,…,13,有y ^i =82.2,90.6,94.8,94.8,103.2,111.6,120,120,124.2,132.6,∑i =110 (y i -y ^i )2=179.28.(2)x =110∑i =110x i =7,∑i =110(x i -x )2=142,y =110∑i =110y i =108,∑i =110(x i -x )(y i -y )=568,∴b ^=568142=4,a ^=y -x b ^=108-7×4=80, 故y ^=80+4x ,对x =1,3,…,13,有y ^i =84,92,96,96,104,112,120,120,124,132,∑i =110(y i -y ^i )2=170.(3)比较可知,(2)中求出的∑i =110(y i -y ^i )2较小.12.(15分)在试验中得到变量y 与x 的数据如下表:试求y 与x 解:作散点图如图所示,从散点图可以看出,两个变量x ,y 不呈线性相关关系,根据学过的函数知识,样本点分布的曲线符合指数型函数y =c 1e c 2x ,通过对数变化把指数关系变为线性关系,令z =ln y ,则z =bx +a (a =ln c 1,b =c 2).列表:性回归方程为:z ^=0.277x -3.992.所以y 关于x 的指数回归方程为:y ^=e 0.277x -3.992.所以,当x =40时,y =e 0.277×40-3.992≈1 197.510.。
人教版数学高二课时作业123.1回归分析的基本思想及其初步应用
§3.1 回归分析的基本思想及其初步应用一、选择题1.掷一枚硬币,记事件A :“出现正面”,B :“出现反面”,则有( )A .A 与B 相互独立 B .P (AB )=P (A )·P (B )C .A 与B 不相互独立D .P (AB )=142.在一个2×2列联表中,若由数据计算得χ2=5.653,则两个变量之间有关系的可能性为( )A .99%B .95%C .90%D .85%3.在一次独立性检验中,根据计算结果,认为A 与B 无关的可能性不足1%,那么χ2的一个可能取值为( )A .6.635B .5.024C .7.897D .3.8414.调查男女学生在购买食品时是否看出厂日期,与性别有关系时用____最有说服力( )A .期望B .方差C .正态分布D .独立性检验5.下面是一个2×2列联表则表中a ,b A .94、96 B .52、50 C .52、54D .54、52 6.下列说法正确的个数为( )①对事件A 与B 的检验无关时,即两个事件互不影响; ②事件A 与B 关系越密切,则χ2就越大;③χ2的大小是判定事件A 与B 是否相关的唯一根据; ④若判定两事件A 与B 有关,则A 发生B 一定发生. A .1个 B .2个 C .3个D .4个 7.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:由χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)算得,K2=110×(40×30-20×20)260×50×60×50≈7.8.附表:A.有99%以上的把握认为“爱好该项运动与性别有关”B.有99%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”二、填空题8.根据下列数据,χ2=____________.9.已知表中数据(单位:亩三、解答题10.某高校共有15000人,其中男生10500人,女生4500人,为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时)(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4个小时的概率.(3)在样本数据中,有60位女生的每周平均体育运动时间超过4个小时.请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)P(K2≥k0)0.100.050.0100.005k0 2.706 3.841 6.6357.879参考答案1.【解析】∵事件A与事件B是对立事件,故排除A、B、D,∴应选C.【答案】 C2.【解析】 ∵χ2=5.653>3.841,∴有95%的把握说两个变量之间有关系. 【答案】 B3.【解析】 由χ2的数值与两个临界值3.841、6.635进行对比. 【答案】 C4.【解析】 由独立性检验的应用知选D. 【答案】 D5.【解析】 由题意得⎩⎪⎨⎪⎧ a +21=73a +2=b ,∴⎩⎪⎨⎪⎧a =52b =54.故选C.【答案】 C6.【解析】 由独立性检验知,只有②成立.故选A. 【答案】 A7.【解析】 根据独立性检验的定义,由χ2≈7.8>6.635可知,有99%以上把握认为“爱好该项运动与性别有关”. 【答案】 A8.【解析】 由公式可得χ2=1.779. 【答案】 1.7799.【解析】 ∵χ2≈33.185 2>6.635,∴有明显关系. 【答案】 有10.解 (1)300×4 50015 000=90,所以应收集90位女生的样本数据.(2)由频率分布直方图得1-2×(0.100+0.025)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.(3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时,又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:每周平均体育运动时间与性别列联表综合列联表可算得K 2=300×(2 250)75×225×210×90=10021≈4.762>3.841.所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关.”。
高中数学 回归分析的基本思想及其初步应用跟踪训练含解析
回归分析的基本思想及其初步应用[A 组 学业达标]1.下列两个变量之间的关系不是函数关系的是( ) A .角度和它的余弦值 B .正方形的边长和面积 C .正n 边形的边数和内角度数和 D .人的年龄和身高解析:函数关系就是一种变量之间的确定性的关系.A,B,C 三项中的两个变量之间都是函数关系,可以写出相应的函数表达式,分别为f(θ)=cos θ,g(a)=a 2,h(n)=nπ-2π.D 选项中的两个变量之间不是函数关系,对于年龄确定的人群,仍可以有不同的身高.故选D.答案:D2.设一个线性回归方程为y ^=2-1.5x,则变量x 增加一个单位时( ) A.y ^平均增加1.5个单位 B.y ^平均增加2个单位 C.y ^平均减少1.5个单位 D.y ^平均减少2个单位解析:由线性回归方程y ^=2-1.5x 中x 的系数为-1.5,知C 项正确. 答案:C 3.有下列数据:x 1 2 3 y35.9912.01下列四个函数中,A .y =3×2x -1B .y =log 2xC .y =3xD .y =x 2解析:当x =1,2,3时,分别代入求y 值,离y 最近的值模拟效果最好,可知A 模拟效果最好. 答案:A4.四名同学根据各自的样本数据研究变量x,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=-2.756x +7.325.②y 与x 负相关且y ^=3.476x +5.648 ③y 与x 正相关且y ^=-1.226x -6.578 ④y 与x 正相关且y ^=8.967x +8.163 其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④D .①④解析:根据题意,依次分析4个结论:对于①,y 与x 负相关且y ^=-2.756x +7.325,此结论正确,线性回归方程符合负相关的特征; 对于②,y 与x 负相关且y ^=3.476x +5.648,此结论错误,由线性回归方程知,此两变量的关系是正相关; 对于③,y 与x 正相关且y ^=-1.226x -6.578,此结论错误,由线性回归方程知,此两变量的关系是负相关;对于④,y 与x 正相关且y ^=8.967x +8.163,此结论正确,线性回归方程符合正相关的特征;故②③一定错误.答案:B5.对具有线性相关关系的变量x,y,测得一组数据如下表:x 2 4 5 6 8 y2040607080根据上表,利用最小二乘法得它们的回归直线方程为y ^=10.5x +a ^,据此模型来预测当x =20时,y 的估计值为________.解析:由已知得x -=5,y -=54,则(5,54)满足回归直线方程y ^=10.5x +a ^,解得a ^=1.5,因此y ^=10.5x +1.5,当x =20时y ^=10.5×20+1.5=211.5.答案:211.56.如图是x 和y 的一组样本数据的散点图,去掉一组数据________后,剩下的4组数据的相关指数最大.解析:去掉D(3,10)这一组数据后,其他4组数据对应的点都集中在某一条直线附近,即两变量的线性相关性最强,此时相关指数最大.答案:D(3,10)7.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线y =ebx +a的周围,令z=ln y,求得回归直线方程为z ^=0.25x -2.58,则该模型的回归方程为____________________.解析:由z =ln y,z ^=0.25x -2.58, 得ln y ^=0.25x -2.58,∴y ^=e 0.25x -2.58. 故该模型的回归方程为y ^=e 0.25x -2.58. 答案:y ^=e 0.25x -2.588.为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y =b x +a ,其中b =0.76,a =y -b x .据此估计,求社区一户年收入为15万元的家庭的年支出.解析:由题意可得x -=15×(8.2+8.6+10.0+11.3+11.9)=10,y -=15×(6.2+7.5+8.0+8.5+9.8)=8,可得a ^=8-0.76×10=0.4. ∴回归直线方程为y ^=0.76x +0.4.把x =15代入可得y ^=0.76×15+0.4=11.8.故社区一户年收入为15万元的家庭的年支出为11.8万元.9.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:(1)求线性回归方程y =b x +a ,其中b =-20,a =y -b x ;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)解析:(1)x -=8+8.2+8.4+8.6+8.8+96=8.5,y -=16(90+84+83+80+75+68)=80,∵b ^=-20,a ^=y --b ^ x -,∴a ^=80+20×8.5=250, ∴线性回归方程y ^=-20x +250;(2)设工厂获得的利润为L 元,则L =x(-20x +250)-4(-20x +250)=-20⎝⎛⎭⎪⎫x -3342+361.25,∴该产品的单价应定为8.25元,工厂获得的利润最大.[B 组 能力提升]10.对于给定的样本点所建立的模型A 和模型B,它们的残差平方和分别是a 1,a 2,R 2的值分别为b 1,b 2,下列说法正确的是( )A .若a 1<a 2,则b 1<b 2,A 的拟合效果更好B .若a 1<a 2,则b 1<b 2,B 的拟合效果更好C .若a 1<a 2,则b 1>b 2,A 的拟合效果更好D .若a 1<a 2,则b 1>b 2,B 的拟合效果更好解析:由残差平方和以及R 2的定义式可得若a 1<a 2,则b 1>b 2,A 的拟合效果更好. 答案:C11.近10年来,某市社会商品零售总额与职工工资总额(单位:亿元)数据如下:A.y ^=2.799 1x -27.248 552 B.y ^=2.799 1x -23.548 452 C.y ^=2.699 2x -23.749 352 D.y ^=2.899 2x -23.749 452解析:x -=41.72,y -=93.23,代入验证可知B 选项正确. 答案:B12.已知方程y ^=0.85x -82.71是根据女大学生的身高预报她的体重的回归方程,其中x 的单位是cm,y ^的单位是kg,那么针对某个体(160,53)的残差是________.解析:将x =160代入y ^=0.85x -82.71,得y ^=0.85×160-82.71=53.29, 所以残差e ^=y -y ^=53-53.29=-0.29. 答案:-0.2913.已知一个线性回归方程为y ^=1.5x +45,x ∈{1,5,7,13,19},则y -=________. 解析:∵x -=1+5+7+13+195=9,且y ^=1.5x +45,∴y -=1.5×9+45=58.5. 答案:58.514.假设关于某种设备的使用年限x(年)与所支出的维修费用y(万元)有如表统计资料:x 2 3 4 5 6 y2.23.85.56.57.0已知∑i =15x 2i=90,∑i =15x i y i =112.3.b ^=∑i =1nx i -x-y i -y-∑i =1nx i -x-2=∑i =1nx i y i -n x - y-∑i =1nx 2i -n x -2,a =y --b ^ x -. (1)求x -,y -.(2)x 与y 具有线性相关关系,求出线性回归方程. (3)估计使用年限为10年时,维修费用约是多少? 解析:(1)x -=4,y -=5.(2)b ^=∑i =15x i y i -5x - y-∑i =15x 2i -5x -2=1.23,a ^=y --b ^ x -=5-1.23×4=0.08.所以线性回归方程为y ^=1.23x +0.08.(3)当x =10时,y ^=1.23×10+0.08=12.38(万元), 即估计使用年限为10年时,维修费用约为12.38万元.15.菜农定期使用低害杀虫农药对蔬菜进行喷洒,以防止害虫的危害,但采集上市时蔬菜仍存有少量的残留农药,食用时需要用清水清洗干净,下表是用清水x(单位:千克)清洗该蔬菜1千克后,蔬菜上残留的农药y(单位:微克)的统计表:x 1 2 3 4 5 y5854392910(1)令w =x 2,利用给出的参考数据求出y 关于w 的回归方程y ^=b ^w +a ^.(a ^,b ^精确到0.1) 参考数据:∑i =15w i =55,∑i =15(w i -w -)(y i -y -)=-751,∑i =15(w i -w -)2=374,其中w i =x 2i ,w -=15∑i =15w i .(2)对于某种残留在蔬菜上的农药,当它的残留量不高于20微克时对人体无害,为了放心食用该蔬菜,请估计至少需要用多少千克的清水清洗1千克蔬菜?(精确到0.1,参考数据5≈2.24)附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v ^=α^+β^u 的斜率和截距的最小二乘估计分别为β^=∑i =1nu i -u-v i -v-∑i =1nu i -u-2,α^=v --β^ u -.解析:(1)由题意得,w -=11,y -=38.b ^=∑i =15w i -w-y i -y-∑i =15w i -w-2=-751374≈-2.0,a ^=y --b ^w =60.0,所以y ^=-2.0w +60.0. (2)由(1)得,y ^=-2.0w +60.0, 所以y ^=-2.0x 2+60.0,当y ^≤20时,即-2.0x 2+60.0≤20,解得x≥25≈4.5,所以为了放心食用该蔬菜,估计需要用4.5千克的清水清洗1千克蔬菜.。
课时作业18:3.1 回归分析的基本思想及其初步应用
§3.1 回归分析的基本思想及其初步应用一、选择题1.对于线性回归方程y ^=b ^x +a ^(b ^>0),下列说法错误的是( ) A .当x 增加一个单位时,y ^的值平均增加b ^个单位 B .点(x ,y )一定在y ^=b ^x +a ^所表示的直线上 C .当x =t 时,一定有y =b ^t +a ^D .当x =t 时,y 的值近似为b ^t +a ^考点 线性回归分析 题点 线性回归方程的应用 答案 C解析 线性回归方程是一个模拟函数,它表示的是一系列离散的点大致所在直线的位置及其大致变化规律,所以有些散点不一定在回归直线上.2.给定x 与y 的一组样本数据,求得相关系数r =-0.690,则( ) A .y 与x 的线性相关性很强 B .y 与x 的相关性很强 C .y 与x 正相关 D .y 与x 负相关 考点 线性相关系数 题点 线性相关系数的应用 答案 D解析 因为r <0,所以y 与x 负相关,又|r |∈[0.75,1]才表示y 与x 具有很强的线性相关性,所以选D.3.某校小卖部为了了解奶茶销售量y (杯)与气温x (℃)之间的关系,随机统计了某4天卖出的奶茶杯数与当天的气温,得到下表中的数据,并根据该样本数据用最小二乘法建立了线性回归方程y ^=-2x +60,则样本数据中污损的数据y 0应为( )气温x (℃) -1 13 10 18 杯数yy 0343824A .58B .64C .62D .60 考点 线性回归分析 题点 线性回归方程的应用 答案 B解析 由表中数据易知x =10,代入y ^=-2x +60中,得y ^=40.由y 0+34+38+244=40,得y 0=64.4.已知变量x 与y 负相关,且由观测数据求得样本平均数x =3,y =3.5,则由该观测数据求得的线性回归方程可能是( ) A.y ^=-2x +9.5 B.y ^=2x -2.4 C.y ^=-0.3x -4.4 D.y ^=0.4x +2.3考点 线性回归方程 题点 求线性回归方程 答案 A解析 因为变量x 与y 负相关,所以排除B ,D ,将样本平均数x =3,y =3.5代入选项验证可知,选项A 符合题意.5.对变量x ,y 进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是( )考点 残差分析与相关指数题点 残差及相关指数的应用 答案 A解析 用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越窄,说明模型的拟合精度越高. 6.根据如下样本数据x 3 4 5 6 7 8 y4.02.5-0.50.5-2.0-3.0得到的回归方程为y ^=b ^x +a ^,则( ) A.a ^>0,b ^>0 B.a ^>0,b ^<0 C.a ^<0,b ^>0 D.a ^<0,b ^<0考点 线性回归分析 题点 线性回归方程的应用 答案 B解析 作出散点图如下:观察图象可知,回归直线y ^=b ^x +a ^的斜率b ^<0, 当x =0时,y ^=a ^>0.故a ^>0,b ^<0.7.已知某地的财政收入x 与支出y 满足线性回归方程y =bx +a +e (单位:亿元),其中b =0.8,a =2,|e |≤0.5,如果今年该地区的财政收入为10亿元,那么年支出预计不会超过( ) A .9亿元 B .10亿元 C .9.5亿元D .10.5亿元考点 残差分析与相关指数 题点 残差及相关指数的应用 答案 D解析 y =0.8×10+2+e =10+e ≤10.5. 8.下列数据符合的函数模型为( )x12345678910A.y =2+13xB .y =2e xC .y =21e xD .y =2+ln x考点 非线性回归分析 题点 非线性回归分析 答案 D解析 分别将x 值代入解析式判断知满足y =2+ln x .9.为了考查两个变量x 和y 之间的线性相关性,甲、乙两位同学各自独立地做了100次和150次试验,并且利用最小二乘法求得的回归直线分别为l 1和l 2.已知两个人在试验中发现对变量x 的观测数据的平均值都是s ,对变量y 的观测数据的平均值都是t ,那么下列说法中正确的是( )A .l 1与l 2有交点(s ,t )B .l 1与l 2相交,但交点不一定是(s ,t )C .l 1与l 2必定平行D .l 1与l 2必定重合 考点 线性回归方程 题点 样本点中心的应用 答案 A解析 回归直线l 1,l 2都过样本点的中心(s ,t ),但它们的斜率不确定,故选项A 正确. 二、填空题10.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为________. 考点 线性相关系数 题点 线性相关系数的应用 答案 1解析 根据样本相关系数的定义可知,当所有样本点都在一条直线上时,相关系数为1. 11.若一个样本的总偏差平方和为80,残差平方和为60,则相关指数R 2为________. 考点 线性相关系数 题点 线性相关系数的应用 答案 0.25解析 R 2=1-6080=0.25.12.已知一个线性回归方程为y ^=1.5x +45,x ∈{1,5,7,13,19},则y =________. 考点 线性回归方程 题点 样本点中心的应用 答案 58.5 解析 ∵x =1+5+7+13+195=9,且y ^=1.5x +45,∴y =1.5×9+45=58.5.13.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线y =e bx+a的周围.令z ^=ln y ,求得线性回归方程为z ^=0.25x -2.58,则该模型的回归方程为________. 考点 非线性回归分析 题点 非线性回归分析 答案 y =e 0.25x-2.58解析 因为z ^=0.25x -2.58,z ^=ln y , 所以y =e 0.25x -2.58.三、解答题14.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四次试验,得到的数据如下:零件的个数x (个) 2 3 4 5 加工的时间y (小时)2.5344.5(1)在给定的坐标系中画出表中数据的散点图;(2)求出y 关于x 的线性回归方程y ^=b ^x +a ^,并在坐标系中画出回归直线; (3)试预测加工10个零件需要多少时间?(注:b ^=∑i =1nx i y i -n x y )∑i =1nx 2i -n x2,a ^=y -b ^x )考点 线性回归方程 题点 求线性回归方程 解 (1)散点图如图.(2)由表中数据得∑i =14x i y i =52.5,x =3.5,y =3.5,∑i =14x 2i =54,所以b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x2=52.5-4×3.5×3.554-4×3.52=0.7,所以a ^=y -b ^x =3.5-0.7×3.5=1.05. 所以y ^=0.7x +1.05. 回归直线如图中所示.(3)将x =10代入回归直线方程,得y ^=0.7×10+1.05=8.05, 所以预测加工10个零件需要8.05小时. 四、探究与拓展15.甲、乙、丙、丁4位同学各自对A ,B 两变量进行回归分析,分别得到散点图与残差平方和∑i =1n(y i -y ^i )2如下表:甲 乙 丙 丁散点图残差平方和115106124103以上的试验结果体现拟合A ,B 两变量关系的模型拟合精度高的是( ) A .甲 B .乙 C .丙 D .丁 考点 残差分析与相关指数 题点 残差及相关指数的应用 答案 D解析 根据线性相关的知识,散点图中各样本点条状分布越均匀,同时保持残差平方和越小(对于已经获取的样本数据,R 2的表达式中 i =1n(y i -y )2为确定的数,则残差平方和越小,R 2越大),由回归分析建立的线性回归模型的拟合效果越好,由试验结果知丁要好些. 16.为了研究某种细菌随时间x 变化繁殖个数y 的变化情况,收集数据如下:时间x (天) 1 2 3 4 5 6 繁殖个数y612254995190(1)用时间作解释变量,繁殖个数作预报变量作出这些数据的散点图; (2)求y 与x 之间的回归方程;(3)计算相关指数R 2,并描述解释变量与预报变量之间的关系. 考点 非线性回归分析 题点 非线性回归分析 解 (1)散点图如图所示:(2)由散点图看出样本点分布在一条指数曲线y =c 1e c 2x 的周围,于是令z =ln y ,则x 1 2 3 4 5 6 z1.792.483.223.894.555.25所以z ^=0.69x +1.115,则有y ^=e 0.69x +1.115.(3)∑i =16 e ^2i =∑i =16 (y i -y ^)2=4.816 1, ∑i =16(y i -y)2≈∑i =16y 2i -6y 2≈24 642.83, R 2=1-∑i =16(y i -y ^i )2∑i =16(y i -y )2≈1-4.816 124 642.83≈0.999 8,即时间解释了99.98%的细菌繁殖个数的变化.。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
课时跟踪检测(十五) 回归分析的基本思想及其初步应用
一、选择题
1.(重庆高考)已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能为( )
A.y ^
=0.4x +2.3 B.y ^
=2x -2.4 C.y ^
=-2x +9.5
D.y ^
=-0.3x +4.4
解析:选A 依题意知,相应的回归直线的斜率应为正,排除C ,D.且直线必过点(3,3.5)代入A ,B 得A 正确.
2.甲、乙、丙、丁四位同学在建立变量x ,y 的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R 2分别如下表:
甲 乙 丙 丁 R 2
0.98
0.78
0.50
0.85
哪位同学建立的回归模型拟合效果最好?( ) A .甲 B .乙 C .丙
D .丁
解析:选A 相关指数R 2越大,表示回归模型的拟合效果越好.
3.对变量x ,y 进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是( )
解析:选A 用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越窄,说明模型的拟合精度越高.
4.某产品的广告费用x 与销售额y 的统计数据如下表:
根据上表可得回归方程y ^=b ^x +a ^中的b ^
为9.4,据此模型预报广告费用为6万元时销售额为( )
A .63.6万元
B .65.5万元
C .67.7万元
D .72.0万元
解析:选B 样本点的中心是(3.5,42), 则a ^=y -b ^
x =42-9.4×3.5=9.1, 所以回归直线方程是y ^
=9.4x +9.1, 把x =6代入得y ^
=65.5.
5.(福建高考)已知x 与y 之间的几组数据如下表:
假设根据上表数据所得线性回归直线方程为y =b x +a ,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( )
A.b ^>b ′,a ^>a ′
B.b ^>b ′,a ^
<a ′ C.b ^<b ′,a ^>a ′ D.b ^<b ′,a ^
<a ′
解析:选C 由两组数据(1,0)和(2,2)可求得直线方程为y =2x -2,b ′=2,a ′=-2.
而利用线性回归方程的公式与已知表格中的数据,可求得b ^
=
∑i =1
6
x i y i -6x -·y
-
∑i =1
6
x 2i -6x -
2
=
58-6×72×
13
6
91-6×⎝⎛⎭
⎫722
=57,a ^=y --b ^x -=136-57×72=-13
,所以b ^<b ′,a ^
>a ′. 二、填空题
6.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =1
2x +1上,则这组样本数据
的样本相关系数为________.
解析:根据样本相关系数的定义可知,当所有样本点都在直线上时,相关系数为1. 答案:1
7.若一个样本的总偏差平方和为80,残差平方和为60,则相关指数R 2为________. 解析:回归平方和=总偏差平方和-残差平方和=80-60=20, 故R 2=20
80=0.25⎝⎛⎭⎫或R 2=1-6080=0.25. 答案:0.25
8.面对竞争日益激烈的消费市场,众多商家不断扩大自己的销售市场,以降低生产成本.某白酒酿造企业市场部对该企业9月份的产品销量(单位:千箱)与单位成本(单位:元)的资料进行线性回归分析,结果如下:
x =72,y =71,∑i =16x 2
i =79,∑i =1
6x i y i =1 481.
则销量每增加1 000箱,单位成本下降________元. 解析:由题意知,b ^
=1 481-6×7
2×71
79-6×⎝⎛⎭
⎫722≈-1.818 2,
a ^=71-(-1.818 2)×72≈77.36,y ^
=-1.818 2x +77.36,销量每增加1 000箱,则单位
成本下降1.818 2元.
答案:1.818 2
9.某中高二某班为了对即将上市的班刊进行合理定价,将对班刊按事先拟定的价格进行试销,得到如下数据:
(1)求线性回归方程y =b x +a .
(2)预计今后的销售中,销量与单价服从(1)中的关系,且班刊的成本是4元/件,为了获得最大利润,班刊的单价定为多少元?
解:(1)x =8+8.2+8.4+8.6+8.8+9
6=8.5,
y =90+84+83+80+75+686
=80,
∑i =1
4
x i y i =8×90+8.2×84+8.4×83+8.6×80+8.8×75+9×68=4 066,
∑i =1
4
x 2i =82+8.22+8.42+8.62+8.82+92
=434.2, b ^=
∑i =1
n
(x i -x )(y i -y )
∑i =1
n
(x i -x )2
=4 066-6×8.5×80434.2-6×8.52
=-20,
a ^=y -
b ^
x =80+20×8.5=250, 所求线性回归方程为y ^
=-20x +250.
(2)获得利润z =(x -4)y =-20x 2+330x -1 000, 当x =8.25时,z max =361.25(元),
所以当单价定为8.25元时,可获得最大利润.
10.(全国卷Ⅱ)某地区2007年至2013年农村居民家庭人均纯收入y (单位:千元)的数据如下表:
(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.
附:回归直线的斜率和截距的最小二乘估计公式分别为:b ^
=
∑i =1
n
(t i -t )(y i -y )
∑i =1
n
(t i -t )2
,a ^
=y
-b ^
t .
解:(1)由所给数据计算得
t =1
7
×(1+2+3+4+5+6+7)=4,
y =1
7
×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,
∑
i=1
7
(t i-t)2=9+4+1+0+1+4+9=28,
∑
i=1
7
(t i-t)(y i-y)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,
b
^=
∑
i=1
7
(t i-t)(y i-y)
∑
i=1
7
(t i-t)2
=14
28
=0.5,
a
^=y-b^t=4.3-0.5×4=2.3,
所求回归方程为y^=0.5t+2.3.
(2)由(1)知,b
^=0.5>0,
故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.将2015年的年份代号t=9代入(1)中的回归方程,得y^=0.5×9+2.3=6.8,
故预测该地区2015年农村居民家庭人均纯收入为6.8千元.
11.假设关于某设备使用年限x(年)和所支出的维修费用y(万元)有如下统计资料:
x 2345 6
y 2.2 3.8 5.5 6.57.0
若由资料知,y对x呈线性相关关系,试求:
(1)回归直线方程;
(2)估计使用年限为10年时,维修费用约是多少?
解:(1)由表格中的数据可得
x=
1
5(2+3+4+5+6)=4
y=
1
5(2.2+3.8+5.5+6.5+7.0)=5.
∑i =1
5
x 2i =22+32+42+52+62
=90, ∑i =1
5
x i y i =2×2.2+3×3.8+4×5.5+5×6.5+6×7.0=112.3,所以回归系数
b ^=
∑i =15
x i y i -5x -y
-
∑i =1
5
x 2i -5x
2
=112.3-5×4×590-5×42
=12.310=1.23.
可得a ^=y -b ^
x =5-1.23×4=0.08. 所以回归直线方程为y ^
=1.23x +0.08.
(2)当x =10时,y ^
=1.23×10+0.08=12.38(万元) 即估计用10年时,维修费约为12.38万元.。