第八章 相关与一元线性回归
精品数学 高中数学人教A版选择性必修三第八章 §8.2 一元线性回归模型及其应用

§8.2 一元线性回归模型及其应用学习目标 1.结合实例,了解一元线性回归模型的含义,了解模型参数的统计意义.2.了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法.3.针对实际问题,会用一元线性回归模型进行预测.知识点一 一元线性回归模型称⎩⎪⎨⎪⎧Y =bx +a +e ,E (e )=0,D (e )=σ2为Y 关于x 的一元线性回归模型.其中Y 称为因变量或响应变量,x 称为自变量或解释变量,a 称为截距参数,b 称为斜率参数;e 是Y 与bx +a 之间的随机误差,如果e =0,那么Y 与x 之间的关系就可以用一元线性函数模型来描述. 知识点二 最小二乘法将y ^=b ^x +a ^称为Y 关于x 的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,这种求经验回归方程的方法叫做最小二乘法,求得的b ^,a ^叫做b ,a 的最小二乘估计,其中b ^=∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2,a ^=y -b ^x 思考1 经验回归方程一定过成对样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )中的某一点吗? 答案 不一定.思考2 点(x ,y )在经验回归直线上吗? 答案 在.知识点三 残差与残差分析 1.残差对于响应变量Y ,通过观测得到的数据称为观测值,通过经验回归方程得到的y ^称为预测值,观测值减去预测值称为残差. 2.残差分析残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析. 知识点四 对模型刻画数据效果的分析 1.残差图法在残差图中,如果残差比较均匀地集中在以横轴为对称轴的水平带状区域内,则说明经验回归方程较好地刻画了两个变量的关系. 2.残差平方和法残差平方和∑i =1n(y i -y ^i )2越小,模型的拟合效果越好.3.R 2法可以用R 2=1-∑i =1n(y i -y^i )2∑i =1n(y i -y )2来比较两个模型的拟合效果,R 2越大,模型拟合效果越好,R 2越小,模型拟合效果越差.思考 利用经验回归方程求得的函数值一定是真实值吗? 答案 不一定,他只是真实值的一个预测估计值.1.求经验回归方程前可以不进行相关性检验.( × )2.在残差图中,纵坐标为残差,横坐标可以选为样本编号.( √ ) 3.利用经验回归方程求出的值是准确值.( × )4.残差平方和越小,线性回归模型的拟合效果越好.( √ ) 5.R 2越小,线性回归模型的拟合效果越好.( × )一、求经验回归方程例1 某研究机构对高三学生的记忆力x 和判断力y 进行统计分析,得下表数据:x 6 8 10 12 y2356(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的经验回归方程y ^=b ^x +a ^; (3)试根据求出的经验回归方程,预测记忆力为9的同学的判断力.⎝ ⎛⎭⎪⎪⎫参考公式:b ^=∑i =1nx i y i-n x ·y ∑i =1nx 2i-n x 2,a ^=y -b ^x 解 (1)散点图如图所示:(2)x =6+8+10+124=9,y =2+3+5+64=4, ∑i =14x 2i =62+82+102+122=344,∑i =14x i y i =6×2+8×3+10×5+12×6=158,b ^=158-4×9×4344-4×92=1420=0.7,a ^=y -b ^x =4-0.7×9=-2.3, 故经验回归方程为y ^=0.7x -2.3.(3)由(2)中经验回归方程可知,当x =9时,y ^=0.7×9-2.3=4,即预测记忆力为9的同学的判断力为4.反思感悟 求经验回归方程可分如下四步来完成 (1)列:列表表示x i ,y i ,x 2i ,x i y i . (2)算:计算x ,y ,∑i =1nx 2i ,∑i =1nx i y i .(3)代:代入公式计算a ^,b ^的值.(4)写:写出经验回归方程.跟踪训练1 随着我国经济的发展,居民储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:(1)求y 关于t 的经验回归方程y ^=b ^t +a ^;(2)用所求经验回归方程预测该地区2021年(t =7)的人民币储蓄存款.⎝ ⎛⎭⎪⎪⎫参考公式:b ^=∑i =1n t i y i-n t y ∑i =1n t 2i-n t 2,a ^=y -b ^t 解 (1)由题意可知,n =5,t =1n ∑i =1n t i =155=3,y =1n ∑i =1n y i =365=7.2.又∑i =1nt 2i =55,∑i =1nt i y i =120,计算得,b ^=1.2,a ^=y -b ^t =7.2-1.2×3=3.6. 故所求经验回归方程为y ^=1.2t +3.6.(2)将t =7代入y ^=1.2t +3.6,可得y ^=1.2×7+3.6=12(千亿元), 所以预测该地区2021年的人民币储蓄存款为12千亿元. 二、线性回归分析例2 已知某种商品的价格x (单位:元)与需求量y (单位:件)之间的关系有如下一组数据:求y 关于x 的经验回归方程,并借助残差平方和和R 2说明回归模型拟合效果的好坏. 解 x =15×(14+16+18+20+22)=18,y =15×(12+10+7+5+3)=7.4,∑i =15x 2i =142+162+182+202+222=1 660,∑i =15x i y i =14×12+16×10+18×7+20×5+22×3=620,所以b ^=∑i =15x i y i -5x y∑i =15x 2i -5x2=620-5×18×7.41 660-5×182=-1.15,a ^=7.4+1.15×18=28.1,所以所求经验回归方程是y ^=-1.15x +28.1. 列出残差表:所以∑i =15(y i -y ^i )2=0.3,∑i =15(y i -y )2=53.2,R 2=1-∑i =15(y i -y ^i )2∑i =15(y i -y )2≈0.994,所以回归模型的拟合效果很好. 反思感悟 刻画回归效果的三种方法(1)残差图法,残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适. (2)残差平方和法:残差平方和∑i =1n(y i -y ^i )2越小,模型的拟合效果越好.(3)R 2法:R 2=1-∑i =1n(y i -y ^i )2∑i =1n(y i -y )2越接近1,表明模型的拟合效果越好.跟踪训练2 为研究重量x (单位:克)对弹簧长度y (单位:厘米)的影响,对不同重量的6个物体进行测量,数据如下表所示:x 5 10 15 20 25 30 y7.258.128.959.9010.911.8(1)作出散点图并求经验回归方程; (2)求出R 2; (3)进行残差分析. 解 (1)散点图如图 .x =16×(5+10+15+20+25+30)=17.5,y =16×(7.25+8.12+8.95+9.90+10.9+11.8)≈9.487,∑i =16x 2i =2 275,∑i =16y 2i =554.659 4,∑i =16x i y i =1 076.2,计算得,b ^≈0.183,a ^≈6.285, 所求经验回归方程为y ^=0.183x +6.285. (2)残差表如下:y i -y ^i 0.05 0.005 -0.08 -0.045 0.04 0.025 y i -y-2.237-1.367-0.5370.4131.4132.313所以∑i =16(y i -y ^i )2≈0.013 18,∑i =16(y i -y )2≈14.678 3.所以R 2≈1-0.013 1814.678 3≈0.999 1,所以回归模型的拟合效果很好.(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有,则需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在宽度不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与重量成线性关系. 三、非线性回归例3 下表为收集到的一组数据:x 21 23 25 27 29 32 35 y711212466115325(1)作出x 与y 的散点图,并猜测x 与y 之间的关系; (2)建立x 与y 的关系,预报回归模型并计算残差; (3)利用所得模型,预测x =40时y 的值.解 (1)作出散点图如图,从散点图可以看出x 与y 不具有线性相关关系,根据已有知识可以发现样本点分布在某一条指数函数型曲线y =c 12e c x 的周围,其中c 1,c 2为待定的参数.(2)对两边取对数把指数关系变为线性关系,令z =ln y ,则有变换后的样本点应分布在直线z =bx +a (a =ln c 1,b =c 2)的周围,这样就可以利用经验回归模型来建立y 与x 之间的非线性经验回归方程了,数据可以转化为x 21 23 25 27 29 32 35 z1.9462.3983.0453.1784.1904.7455.784求得经验回归方程为z ^=0.272x -3.849, ∴y ^=e 0.272x -3.849. 残差表如下:y i 7 11 21 24 66 115 325 y ^i 6.443 11.101 19.125 32.950 56.770 128.381 290.325 e ^i 0.557-0.1011.875-8.9509.23-13.38134.675(3)当x =40时,y ^=e 0.272×40-3.849≈1 131.反思感悟 非线性回归问题的处理方法 (1)指数函数型y =e bx +a①函数y =e bx +a 的图象,如图所示;②处理方法:两边取对数得ln y =ln e bx +a ,即ln y =bx +a .令z =ln y ,把原始数据(x ,y )转化为(x ,z ),再根据线性回归模型的方法求出a ,b . (2)对数函数型y =b ln x +a①函数y =b ln x +a 的图象,如图所示;②处理方法:设x ′=ln x ,原方程可化为y =bx ′+a , 再根据线性回归模型的方法求出a ,b . (3)y =bx 2+a 型处理方法:设x ′=x 2,原方程可化为y =bx ′+a ,再根据线性回归模型的方法求出a ,b .跟踪训练3为了研究甲型H1N1中的某种细菌随时间x变化的繁殖个数y,收集数据如下:天数x 12345 6繁殖个数y 612254995190求y关于x的非线性经验回归方程.解作出散点图如图(1)所示.由散点图看出样本点分布在一条指数型曲线y=c e bx的周围,则ln y=bx+ln c.令z=ln y,a=ln c,则z=bx+a.x 12345 6z 1.79 2.48 3.22 3.89 4.55 5.25相应的散点图如图(2)所示.从图(2)可以看出,变换后的样本点分布在一条直线附近,因此可以用经验回归方程来拟合.由表中数据得到经验回归方程为z^=0.69x+1.115.因此细菌的繁殖个数y关于天数x的非线性经验回归方程为y^=e0.69x+1.115.1.(多选)以下四个散点图中,两个变量的关系适合用线性回归模型刻画的是()答案AC解析AC中的点分布在一条直线附近,适合线性回归模型.2.甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的决定系数R2分别如下表:甲 乙 丙 丁 R 20.980.780.500.85哪位同学建立的回归模型拟合效果最好( ) A .甲 B .乙 C .丙 D .丁 答案 A解析 决定系数R 2越大,表示回归模型的拟合效果越好.3.已知人的年龄x 与人体脂肪含量的百分数y 的经验回归方程为y =0.577x -0.448,如果某人36岁,那么这个人的脂肪含量( ) A .一定是20.3%B .在20.3%附近的可能性比较大C .无任何参考数据D .以上解释都无道理 答案 B解析 将x =36代入经验回归方程得y =0.577×36-0.448≈20.3,故这个人的脂肪含量在20.3%附近的可能性较大,故选B.4.由变量x 与y 相对应的一组成对样本数据(1,y 1),(5,y 2),(7,y 3),(13,y 4),(19,y 5)得到的经验回归方程为y ^=2x +45,则y =________. 答案 63解析 ∵x =15(1+5+7+13+19)=9,y =2x +45,∴y =2×9+45=63.5.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线y =e bx+a的周围.令z ^=ln y ,求得经验回归方程为z ^=0.25x -2.58,则该模型的非线性经验回归方程为________. 答案 y ^=e 0.25x-2.58解析 因为z ^=0.25x -2.58,z ^=ln y , 所以y ^=e 0.25x -2.58.1.知识清单: (1)一元线性回归模型.(2)最小二乘法、经验回归方程的求法.(3)对模型刻画数据效果的分析:残差图法、残差平方和法和R 2法. 2.方法归纳:数形结合、转化化归.3.常见误区:不判断变量间是否具有线性相关关系,盲目求解经验回归方程致误.1.如果两个变量之间的线性相关程度很高,则其R 2的值应接近于( ) A .0.5 B .2 C .0 D .1 答案 D解析 R 2越接近于1,相关程度越高,故选D.2.对变量x ,y 进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是( )答案 A解析 用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高.3.工人工资y (元)与劳动生产率x (千元)的相关关系的经验回归方程为y ^=50+80x ,下列判断正确的是( )A .劳动生产率为1 000元时,工人工资为130元B .劳动生产率提高1 000元时,工人工资平均提高80元C .劳动生产率提高1 000元时,工人工资平均提高130元D .当月工资为250元时,劳动生产率为2 000元 答案 B解析 因为经验回归方程的斜率为80,所以x 每增加1,y 平均增加80,即劳动生产率提高1 000元时,工人工资平均提高80元.4.两个变量的散点图如图,可考虑用如下函数进行拟合比较合理的是()A .y =a ·x bB .y =a +b ln xC .y =a ·e bxD .y =a ·e bx答案 B解析 由散点图可知,此曲线类似对数函数型曲线,因此可用函数y =a +b ln x 模型进行拟合. 5.(多选)对于经验回归方程y ^=b ^x +a ^(b ^>0),下列说法正确的是( ) A .当x 增加一个单位时,y ^的值平均增加b ^个单位 B .点(x ,y )一定在y ^=b ^x +a ^所表示的直线上 C .当x =t 时,一定有y =b ^t +a ^D .当x =t 时,y 的值近似为b ^t +a ^答案 ABD解析 经验回归方程是一个模拟函数,它表示的是一系列离散的点大致所在直线的位置及其大致变化规律,所以有些散点不一定在经验回归直线上.6.某地区近10年居民的年收入x 与年支出y 之间的关系大致符合y ^=0.8x +0.1(单位:亿元),预计今年该地区居民收入为15亿元,则今年支出估计是________亿元. 答案 12.1解析 将x =15代入y ^=0.8x +0.1,得y ^=12.1.7.若经验回归直线方程中的回归系数b ^=0,则样本相关系数r =________. 答案 0解析 样本相关系数r =∑i =1n(x i -x )(y i -y )∑i =1n(x i -x)2∑i =1n(y i -y )2与b ^=∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2的分子相同,故r =0.8.某品牌服装专卖店为了解保暖衬衣的销售量y (件)与平均气温x (℃)之间的关系,随机统计了连续四旬的销售量与当旬平均气温,其数据如表:时间 二月上旬 二月 中旬 二月 下旬 三月 上旬 旬平均气温x (℃) 3 8 12 17 旬销售量y (件)55m3324由表中数据算出经验回归方程y ^=b ^x +a ^中的b ^=-2,样本点的中心为(10,38). (1)表中数据m =________;(2)气象部门预测三月中旬的平均气温约为22 ℃,据此估计,该品牌的保暖衬衣在三月中旬的销售量约为________件. 答案 (1)40 (2)14解析 (1)由y =38,得m =40.(2)由a ^=y -b ^x 得a ^=58,故y ^=-2x +58, 当x =22时,y ^=14,故三月中旬的销售量约为14件. 9.已知变量x ,y 有如下对应数据:x 1 2 3 4 y1345(1)作出散点图;(2)用最小二乘法求关于x ,y 的经验回归方程. 解 (1)散点图如图所示.(2)x =1+2+3+44=52,y =1+3+4+54=134,∑i =14x i y i =1+6+12+20=39,∑i =14x 2i =1+4+9+16=30,b ^=39-4×52×13430-4×⎝⎛⎭⎫522=1310,a ^=134-1310×52=0,所以y ^=1310x 即为所求的经验回归方程.10.由某种设备的使用年限x i (年)与所支出的维修费y i (万元)的数据资料算得如下结果,∑i =15x 2i =90,∑i =15x i y i =112,∑i =15x i =20,∑i =15y i =25.(1)求所支出的维修费y 关于使用年限x 的经验回归方程y ^=b ^x +a ^; (2)①判断变量x 与y 之间是正相关还是负相关; ②当使用年限为8年时,试估计支出的维修费是多少? 解 (1)∵∑i =15x i =20,∑i =15y i =25,∴x =15∑i =15x i =4,y =15∑i =15y i =5,∴b ^=∑i =15x i y i -5x y∑i =15x 2i -5x2=112-5×4×590-5×42=1.2,a ^=y -b ^x =5-1.2×4=0.2. ∴所求经验回归方程为y ^=1.2x +0.2.(2)①由(1)知b ^=1.2>0,∴变量x 与y 之间是正相关. ②由(1)知,当x =8时,y ^=1.2×8+0.2=9.8, 即使用年限为8年时,支出的维修费约是9.8万元.11.设两个变量x 和Y 之间具有线性相关关系,它们的样本相关系数是r ,Y 关于x 的经验回归方程的回归系数为b ^,回归截距是a ^,那么必有( ) A.b ^与r 的符号相同 B.a ^与r 的符号相同 C.b ^与r 的符号相反 D.a ^与r 的符号相反答案 A解析 b ^与r 的符号相同.12.恩格尔系数是食品支出总额占个人消费支出总额的比重.据某机构预测,n (n ≥10)个城市职工购买食品的人均支出y (千元)与人均月消费支出x (千元)具有线性相关关系,且经验回归方程为y ^=0.4x +1.2,若其中某城市职工的人均月消费支出为5千元,则该城市职工的月恩格尔系数约为( )A .60%B .64%C .58%D .55% 答案 B解析 把x =5代入经验回归方程y ^=0.4x +1.2中,得y ^=0.4×5+1.2=3.2,则该城市职工的月恩格尔系数约为3.25=0.64=64%,故选B.13.(多选)设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系.根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的经验回归方程为y ^=0.85x -85.71,则下列结论中正确的是( ) A .y 与x 具有正的线性相关关系B .经验回归方程过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可判定其体重必为58.79 kg 答案 ABC解析 A ,B ,C 均正确,是经验回归方程的性质,D 项是错误的,经验回归方程只能预测学生的体重,应为大约58.79 kg.14.某数学老师身高176 cm ,他爷爷、父亲和儿子的身高分别是173 cm,170 cm,182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为________ cm. 答案 185解析 因为儿子的身高与父亲的身高有关,所以设儿子的身高为Y (单位:cm),父亲身高为X (单位:cm),根据数据列表:X 173 170 176 Y170176182由表中数据,求得回归系数b ^=1,a ^=3. 于是儿子身高与父亲身高的关系式为Y =X +3, 当X =182时,Y =185.故预测该老师的孙子的身高为185 cm.15.已知变量y 关于x 的非线性经验回归方程为y ^=eb ^x -0.5,其一组数据如下表所示: x 1 2 3 4yee 3e 4e 6若x =5,则预测y 的值可能为( ) A .e 5 B .112e C .e 7 D .152e 答案 D解析 将式子两边取对数,得到ln y ^=b ^x -0.5, 令z =ln y ^,得到z =b ^x -0.5, 列出x ,z 的取值对应的表格如下:x 1 2 3 4 z1346则x =1+2+3+44=2.5,z =1+3+4+64=3.5,∵(x ,z )满足z =b ^x -0.5, ∴3.5=b ^×2.5-0.5,解得b ^=1.6, ∴z =1.6x -0.5,∴y ^=e 1.6x -0.5,当x =5时,y ^=e1.6×5-0.5=152e .16.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:(1)求经验回归方程y ^=b ^x +a ^,其中b ^=-20;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本) 解 (1)由于x =16×(8+8.2+8.4+8.6+8.8+9)=8.5,y =16×(90+84+83+80+75+68)=80.所以a ^=y -b ^x =80+20×8.5=250, 从而经验回归方程为y ^=-20x +250.(2)设工厂获得的利润为L 元,依题意得L =x (-20x +250)-4(-20x +250)=-20x 2+330x -1 000=-20(x -8.25)2+361.25.故当单价定为8.25元时,工厂可获得最大利润.。
第八章 相关分析与回归分析

下一页
返回本节首页
19
③在数据区域中输入B2:C11,选择“系列产 生在—列”,如下图所示,单击“下一步” 按钮。
上一页
第8章 回归分析
下一页
返回本节首页
20
④打开“图例”页面,取消图例,省略标题,如 下图所示。
上一页
第8章 回归分析
下一页
返回本节首页
21
⑤单击“完成”按钮,便得到XY散点图如下图 所示。
n 8, x 36.4, x 207.54 , y 104214 y 880, . xy 4544 6
2 2
r
n xy x y n x2 x 2 n y2 y 2 8 4544 6 36.4 880 .
第8章 回归分析
40
(二)回归分析的种类: 1、按自变量 x 的多少,分为一元回归和多 元回归; 2、按 y 与 x 关系的形式,分为线性回归和 非线性回归。
第8章 回归分析
41
二、一元线性回归分析
x y 62 86 80 110 115 132 135 160
42
(一)一元线性回归方程:
2、非线性相关:当一个变量变动时, 另一个变量也相应发生变动,但这种变 动是不均等的。
第8章 回归分析
9
㈢根据相关关系的方向 1、正相关:两个变量间的变化方向一 致,都是增长趋势或下降趋势。 2、负相关:两个变量变化趋势相反。
上一页
第8章 回归分析
下一页
返回本节首页
10
(四)根据相关关系的程度 1、完全相关:两个变量之间呈函数关系 2、不相关:两个变量彼此互不影响,其 数量的变化各自独立
第八章 相关与回归分析

相关系数的特点:
相关系数的取值在-1与1之间。 相关系数的取值在之间。 =0时 表明X 没有线性相关关系。 当r=0时,表明X与Y没有线性相关关系。 表明X 当 时,表明X与Y存在一定的线性相关关 系; 表明X 为正相关; 若 表明X与Y 为正相关; 表明X 为负相关。 若 表明X与Y 为负相关。 表明X 完全线性相关; 当 时,表明X与Y完全线性相关; r=1, 完全正相关; 若r=1,称X与Y完全正相关; r=完全负相关。 若r=-1,称X与Y完全负相关
25 20 15 10 5 0 0 2 4 6 8 10 12
11.2 11 10.8 10.6 10.4 10.2 10 0 5 10
相关关系的类型
25
● 从变量相关关系变化的方向 方向看 方向 正相关——变量同方向变化 正相关 负相关——变量反方向变化 负相关 ● 从变量相关的程度看 完全相关 不完全相关 不相关
x
最小二乘法 ˆ ˆ (α 和 β 的计算公式)
根据最小二乘法, 根据最小二乘法,可得求解 和 的公式如下
最小二乘估计的性质 ——高斯 马尔可夫定理 高斯—马尔可夫定理 前提: 在基本假定满足时
最小二乘估计是因变量的线性函数 线性函数 最小二乘估计是无偏估计 无偏估计,即 无偏估计 在所有的线性无偏估计中,回归系数的最小二 乘估计的方差最小 方差最小。 方差最小
结论:
回归系数的最小二乘估计是最佳线性无偏估计 最佳线性无偏估计
四、简单线性回归模型的检验
回归模型的检验包括: 回归模型的检验包括: 理论意义检验: 理论意义检验:主要涉及参数估计值的符号和取 值区间,检验它们与实质性科学的理论以及人们 的实践经验是否相符。 一级检验: 一级检验:又称统计学检验,利用统计学的抽样 理论来检验样本回归方程的可靠性,具体分为拟 合优度检验和显著性检验。 二级检验: 二级检验:又称计量经济学检验,它是对标准线 性回归模型的假设条件是否满足进行检验,包括 自相关检验、异方差检验、多重共线性检验等。
薛薇,《SPSS统计分析方法及应用》第八章 相关分析和线性回归分析

以控制,进行偏相关分析。
偏相关分 析输出结 果;负的 弱相关
相关分析 输出结果 ;正强相 关
8.4.1
8.4.2
回归分析概述
线性回归模型
8.4.3
8.4.4 8.4.5 8.4.6
回归方程的统计检验
基本操作
其它操作
应用举例
线性回归分析的内容
能否找到一个线性组合来说明一组自变量和因变量
可解释x对Y的影响大小,还可 以对y进行预测与控制
目的是刻画变量间的相关 程度
8.2.1 8.2.2 8.2.3 8.2.4
散点图 相关系数 基本操作 应用举例
•
相关分析通过图形和数值两种方式,有效地揭示事物
之间相关关系的强弱程度和形式。
8.2.1 散点图 它将数据以点的的形式画在直角坐标系上,通过
Distances 过程用于对各样本点之间或各个变量之间 进行相似性分析,一般不单独使用,而作为聚类分
析和因子分析等的预分析。
1) 选择菜单Analyze Correlate Bivariate,出现 窗口:
2) 把要分析的变量选到变量Variables框。
3) 在相关系数Correlation Coefficents框中选择计算哪种
一元线性回归模型的数学模型:
y 0 1 x
其中x为自变量;y为因变量; 0 为截距,即常量;
1 为回归系数,表明自变量对因变量的影响程度。
用最小二乘法求解方程中的两个参数,得到
1
( x x )( y y ) (x x)
i i 2 i
0 y bx
MBA管理统计学(中科大万红燕)第八章回归分析和相关分析

2010-7-23
销售额
12
第二节 相关分析
例1解:
xi = 2139, ∑ yi = 11966, ∑ xi2 = 179291 ∑ yi2 = 6947974, ∑ xi y i = 1055391, n = 30 ∑ r= n∑ xi yi ∑ xi ∑ yi (∑ xi ) 2 n∑ yi2 (∑ yi ) 2
2010-7-23
4
第一节 相关与回归分析的基本概念
三.相关分析与回归分析
相关分析和回归分析是研究现象之间相关关系 的两种基本方法. 相关分析:研究两个或两个以上随机变量之间 相关关系密切程度和相关方向的统计分析方法. 回归分析:研究某一随机变量(因变量)与其 他一个或几个变量(自变量)之间数量变动关 系形式的统计分析方法.
一.一元线性回归模型的建立 设因变量y(通常是随机变量)和一个自变量 (非随机变量)X之间有某种相关关系.在x的 不全相同的取值点x1,x2,…,xn作为独立观 察得到y的个观察值y1,y2,… ,yn记为( x1, y1 )( x2 , y2 ), … ,(xn , yn ). 根据这组数据寻求X与Y之间关系. 设一元线性回归模型为:yi=a+bxi+ ei
r=0.955248
2010-7-23 14
第二节 相关分析
25000 税收收入(亿元 亿元) 20000 15000 10000 5000 0
0 20000 40000 60000 80000 100000 120000 140000
GDP(亿元)
2010-7-23
15
第二节 相关分析
二.有序数据的相关系数(等级相关系数)
2010-7-23
8
第八章 相关分析与回归分析习题答案

第八章 相关分析与回归分析习题参考答案一、名词解释函数关系:函数关系亦称确定性关系,是指变量(现象)之间存在的严格确定的依存关系。
在这种关系中,当一个或几个相互联系的变量取一定的数值时,必定有另一个且只有一个变量有确定的值与之对应。
相关关系:是指变量(现象)之间存在着非严格、不确定的依存关系。
在这种关系中,当一个或几个相互联系的变量取一定的数值时,可以有另一变量的若干数值与之相对应。
这种关系不能用完全确定的函数来表示。
相关分析:相关分析主要是研究两个或者两个以上随机变量之间相互依存关系的方向和密切程度的方法,直线相关用相关系数表示,曲线相关用相关指数表示,多元相关用复相关系数表示。
回归分析:回归分析是研究某一随机变量关于另一个(或多个)非随机变量之间数量关系变动趋势的方法。
其目的在于根据已知非随机变量来估计和预测随机变量的总体均值。
单相关:单相关是指仅涉及两个变量的相关关系。
复相关:复相关是指一个变量对两个或者两个以上其他变量的相关关系。
正相关:正相关是指两个变量的变化方向是一致的,当一个变量的值增加(或减少)时,另一变量的值也随之增加(或减少)。
负相关:负相关是指两个变量的变化方向相反,即当一个变量的值增加(或减少)时,另一个变量的值会随之减少(或增加)。
线性相关:如果相关的两个变量对应值在直角坐标系中的散点图近似呈一条直线,则称为线性相关。
非线性相关:如果相关的两个变量对应值在直角坐标系中的散点图近似呈现出某种曲线形式,则为非线性相关。
相关系数:相关系数是衡量变量之间线性相关密切程度及相关方向的统计分析指标。
取值在-1到1之间。
两个变量之间的简单样本相关系数的计算公式为:()()niix x y y r --∑二、单项选择1.B;2.D;3.D;4.C;5.A;6.D 。
三、判断题(正确的打“√”,错误的打“×”) 1.×; 2.×; 3.√; 4.×; 5.×; 6.×; 7.×; 8.√. 四、简答题1、什么是相关关系?相关关系与函数关系有什么区别?答:相关关系,是指变量(现象)之间存在着非严格、不确定的依存关系。
第八章 相关分析与回归分析

第八章相关分析与回归分析一、单项选择题(以下每小题各有四项备选答案,其中只有一项是正确的。
)1.根据散点图8-1,可以判断两个变量之间存在( )。
A.正线性相关关系B.负线性相关关系C.非线性关系D.函数关系[答案] A2.假设某品牌的笔记本市场需求只与消费者的收入水平和该笔记本的市场价格水平有关。
则在假定消费者的收入水平不变的条件下,该笔记本的市场需求与其市场价格水平的相关关系就是一种( )。
A.单相关B.复相关C.偏相关D.函数关系[答案] C[解析] 在某一现象与多种现象相关的场合,假定其他变量不变,专门考察其中两个变量的相关关系称为偏相关。
在假定消费者的收入水平不变的条件下,该笔记本的市场需求与其市场价格水平的关系就是一种偏相关。
3.相关图又称( )。
A.散布表B.折线图C.散点图D.曲线图[答案] C[解析] 相关图又称散点图,是指把相关表中的原始对应数值在乎面直角坐标系中用坐标点描绘出来的图形。
4.下列相关系数取值中错误的是( )。
A.-0.86 B.0.78 C.1.25 D.0[答案] C[解析] 相关系数r的取值介于-1与1之间。
5.如果相关系数r=0,则表明两个变量之间( )。
A.相关程度很低B.不存在任何关系C.不存在线性相关关系D.存在非线性相关关系[答案] C[解析] 相关系数r是根据样本数据计算的度量两个变量之间线性关系强度的统计量。
如果相关系数r=0,说明两个变量之间不存在线性相关关系。
6.当所有观测值都落在回归直线上,则两个变量之间的相关系数为( )。
A.1 B.-1C.+1或-1 D.大于-1,小于+1[答案] C[解析] 当所有观测值都落在回归直线上时,说明两个变量完全线性相关,所以相关系数为+1或-1。
即当两个变量完全正相关时,r=+1;当两个变量完全负相关时,r=-1。
7.对于回归方程,下列说法中正确的是( )。
A.只能由自变量x去预测因变量yB.只能由因变量y去预测自变量xC.既可以由自变量x去预测因变量y,也可以由变量因y去预测自变量xD.能否相互预测,取决于自变量x和变量因y之间的因果关系[答案] A[解析] 回归方程中,只能由自变量x去预测因变量y,而不能由因变量y不能预测自变量x。
第八章相关与回归分析Correlation and Regression Analysis

象的相关关系必须借助于统计学中的相关与回归分析方法。
Chap 08-4
相关关系的类型
从相关关系涉及的变量数量看:单相关和复相关 一个变量对另一变量的相关关系,称为单相关; 一个变量对两个以上变量的相关关系时,称为复相关; 从变量相关关系的表现形式看:线性相关和非线性相关 从变量相关关系变化的方向看:正相关和负相关 从变量相关的程度看:完全相关〔函数关系〕、不完全相
或:
r
n xtyt xt yt
[n ( xt2)( xt)2]n [( yt2)( yt)2]
Chap 08-7
2 简单线性相关与回归分析
2.1 简单线性相关系数及检验 2.2 总体回归函数与样本回归函数 2.3 回归系数的估计 2.4 简单线性回归模型的检验 2.5 简单线性回归模型预测
Chap 08-8
相关系数
总体相关系数〔 population correlation coefficient〕 ρ 是反映两变量之间线性相关程度的 一种特征值,表现为一个常数。
关、不相关
Chap 08-5
相关分析与回归分析
而样本回归函数中 的和 是随机变量,其具体数值随所抽取的样本观测值不同而变动。
是当 x 等于 0 时 y 的平均估计值 S越小说明实际观测点与所拟合的样本回归线的离差程度越小,即样本回归线具有较强的代表性,反之,S越大说明实际观测点与所拟 合的样本回归线的离差程度越大,即回归线的代表性越差。
Chap 08-1
本节学习目标
通过本节的学习,你应该能够:
理解和掌握相关分析和回归分析的原理 估计一元线性回归模型,并对模型进行检验 利用计算机软件估计多元线性回归模型,并对模型进行
统计学原理第8章相关与回归分析[精]
![统计学原理第8章相关与回归分析[精]](https://img.taocdn.com/s3/m/3898d2394a7302768e9939a6.png)
估计标准误差就是因变量的估计值yc与实际值y之间差异 公 的平均程度。记为Syx,它的基本公式为:
式
或
式中,Syx表示估计标准误差;下标yx表示y依x的回归方程; y是因变量的实际值;yc是因变量的估计值。
例8.4以例8.1的资料计算估计标准误差。
步骤: 1.设计一张计算表,将已知x的值代入回归方程求出对应的yc的值 2.计算离差y-yc并加以平方求和 3.求出估计标准误差Syx。
数关系。
当r=0时,表示x与y完全没有线性相关。
当0<|r|<1时,表示x与y存在着一定的线性相关。一般分四个
等级,判断标准如下:
若0<|r|<0.3,则称x与y为微弱相关;
若0.3<|r|<0.5, 则称x与y为低度相关;
若0.5<|r|<0.8, 则称x与y为显著相关;
若0.8<|r|<1, 则称x与y为高度相关。
8.3.2简单直线回归方程
a, b是待定参数 利用最小二乘法 得到a,b求值,再反解得到方程式
建立回归直线的过程:列计算表,求出∑xy,∑x2,∑y2,x,y; 计算Lxy,Lxx和Lyy的值;求出b和a的值并写出方程
例 8.2某工厂某产品的产量与单位成本资料见表8.2,试 求单位成本依产量的回归直线方程。
★ 填空题 (1) 现象之间的相关关系,从相关因素的个数看,可分为()和();从相关的形式
的两个回归方程。() (9) 估计标准误差指的就是因变量的估计值yc与实际值y之间的平均误差程度。() (10) 在任何相关条件下,都可以用相关系数r说明变量之间相关的密切程度。() (11) 若变量x与y的相关系数r1=-0.8,变量p与q的相关系数r2=-0.92,由于r1>r2,
第八讲 相关分析与一元回归分析(1)

样本回归直线 :
^
残差 : ei
^
^^
yi 0 1 xi
yi
^
ei yi yi
^
y1
x1
xi
X
(四)样本回归模型与总体回归模型的区别
1、总体回归直线是未知的,只有一条。而样本回归
直线是根据样本数据拟合的,每抽取一组样本,便可拟合
一条样本回归直线。
2、总体回归模型中 0和1 是未知的参数,表现为常
r
n xy x y
n x2 ( x)2 n y2 ( y)2
30268 4262 )
(二)相关系数的特点
1. r 的取值范围是 [-1,1] 2. |r|=1,为完全相关
r =1, 为完全正相关 r = -1,为完全负相关 3. r = 0,不存在线性相关关系,可能存在非线性 相关关系 4. -1r<0,为负相关 5. 0<r1,为正相关 6. |r|越趋于1表示线性相关关系越密切,|r|越趋于0 表示线性相关关系越不密切
如某种商品的需求与其价格水平及收入 水平之间的相关关系。 偏相关:在某一变量与多个变量相关的场合,假定 其他变量不变,专门考察其中两个变量的 相关关系。
如在假定人们收入水平不变的条件下,某 种商品的需求与其价格水平的关系。
三、相关图和相关表 (一)相关表:将某一变量的数值按照从小到大的顺序,
并配合另一变量的数值一一对应而平行排列的表。 例:为了研究分析某种劳务产品完成量与其单位产 品成本之间的关系,调查30个同类服务公司得到的原 始数据如表。
因此,相关分析不必确定变量中哪个是自变量,哪个 是因变量,并且可以都是随机变量。
而回归分析中必须事先确定哪个为自变量,哪个为因 变量,并且自变量一般是给定的非随机变量,而因变量为 随机变量。只能从自变量去推测因变量,不能反推。
统计学原理第八章相关分析与回归分析

21
例1:P354页,第1题
企业 产量 X 单位成 XY
X2
Y2
序号 (4件) 本(元)Y
1
2
52
104
4
2704
2
3
54
162
9
2916
3
4
52
208
16
2704
4
4
48
192
16
2304
5
5
48
240
25
2304
6
6
∑
24
46
276
36
2116
300
1182
106 15048
即:∑X=24,∑Y=300, ∑XY=1182,
• 2) X倚Y的直线方程的确定
• 根据最小平方法的原理:(x xc )2 最小值
• 将xc = c + dy代入上述公式中,分别对c和d 求一阶偏导数,并令偏导数等于0,就可以
得出两个正规方程:
x nc dy yx cy dy2
d
nyx y n y2 (
x
y )2
c x dy
举例:P355,第4题。
• 偏相关:在复相关中,当假定其他变量不 变时,其中两个变量间的相关关系称为偏 相关。例如,在假定人们收入水平不变的 条件下,某种商品的需求与其价格水平的 关系就是一种偏相关。
9
三、相关分析与回归分析
• (一)相关分析 • 是用一个指标(相关系数)来表明现象
之间相互依存的密切程度。 • (二)回归分析 • 是根据相关关系的具体形态,选择一个
• 曲线相关:如果现象之间的相关关系近似 地表现为某种曲线形式时,就称这种相关 关系为曲线相关。
高考数学必背知识手册-第八章-成对数据的统计分析(公式、定理、结论图表)

第八章成对数据的统计分析(公式、定理、结论图表)一、成对数据的统计相关性1.变量的相关关系(1)函数关系函数关系是一种确定性关系,常用解析式来表示.(2)相关关系两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.与函数关系不同,相关关系是一种非确定性关系.2.散点图(1)散点图成对样本数据都可用直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图. (2)正相关和负相关如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关.3.线性相关一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,则称这两个变量线性相关.4.样本相关系数(1)对于变量x和变量y,设经过随机抽样获得的成对样本数据为(,),(,),,(,),利用相关系数r来衡量两个变量之间线性关系的强弱,相关系数r的计算公式:(其中,,,和,,,的均值分别为和).①当r >0时,称成对样本数据正相关.这时,当其中一个数据的值变小时,另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大.②当r <0时,称成对样本数据负相关.这时,当其中一个数据的值变小时,另一个数据的值通常会变大;当其中一个数据的值变大时,另一个数据的值通常会变小.二、一元线性回归模型及其应用1.线性回归方程:(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:()()()1122,,,,,,n n x y x y x y ,其回归方程为a bx y +=∧,则1221,.ni i i nii x y nx y b x nx a y bx ==⎧-⎪⎪=⎪⎨-⎪⎪=-⎪⎩∑∑注意:线性回归直线经过定点(),x y .(3)相关系数:()()()()12211nii i nni i i i xx y y rx x y y ===--=--∑∑∑1222211ni ii n ni i i i x y nxyx nx y ny ===-=⎛⎫⎛⎫-- ⎪⎪⎝⎭⎝⎭∑∑∑.【方法归纳】(1)利用散点图判断两个变量是否有相关关系是比较直观简便的方法.如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关.(2)利用相关系数判定,当r 越趋近于1相关性越强.当残差平方和越小,相关指数2R 越大,相关性越强.(3)在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,也可计算相关系数r 进行判断.若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.(4)正确运用计算 ,ba 的公式和准确的计算,是求线性回归方程的关键.并充分利用回归直线 y bxa =+ 过样本点的中心(),x y 进行求值.2、回归分析:对具有相关关系的两个变量进行统计分析的一种常用方法。
2020_2021新教材高中数学第八章成对数据的统计分析8.2一元线性回归模型及其应用课件新人教A版

有5名学生的数学和化学成绩如表所示:
学生学科
A B CDE
数学成绩(x) 87 76 73 66 63
化学成绩(Y) 78 66 71 64 61
(1)如果Y与x具有相关关系,求经验回归方程 = x+ ;
(2)预测如果某学生数学成绩为79分,他的化学成绩为多少?(结果取整数)
n
(xi- x )(yi- y )
=1-(-2.8)2+(-01..625)1 2+0.52+1.52+22 =1-01.56.5718 ≈0.9587. (4)经验回归方程 =1.23x+0.08,所以当 x=10 年时, =1.23×10+0.08=12.38(万 元), 即估计使用 10 年时维修费是 12.38 万元.
【类题通法】建立线性回归模型的基本步骤: (1)确定研究对象,明确解释变量和响应变量; (2)画出解释变量和响应变量的散点图,观察它们之间的关系(如是否存在线性关 系等); (3)由经验确定回归方程的类型; (4)按一定的规则估计回归方程的参数; (5)对所建立的模型进行残差分析,判断拟合效果.
【解析】由题意e为随机变量,e称为随机误差.根据随机误差的意义,可得E(e) =0. 答案:0
主题2 经验回归方程的求解 如何对具有线性相关关系的两个变量进行分析?
提示:对具有线性相关关系的变量,利用回归分析的方法进行研究.其步骤为 画散点图,求经验回归直线方程,并利用经验回归方程对模型刻画数据的效果 进行分析,借助残差分析对模型进行改造,使我们能够根据改进模型作出符合 实际的预测和决策.
为研究质量x(单位:克)对弹簧长度Y(单位:厘米)的影响,对不同质量的6个物 体进行测量,数据如表所示:
x 5 10 15 20 25 30 y 7.25 8.12 8.95 9.90 10.9 11.8
第八章 相关与回归分析-一元线性回归

12
1、散点图
不良贷款
14
12
10
8
6
4
2
0 0
100
200
300
400
贷款余额 不良贷款与贷款余额的散点图
14
12
10
8 6
4
2
0 0
10
20
30
40
贷款项目个数
不良贷款与贷款项目个数的散点图不来自贷款不良贷款14
12
10
8
6
4
2
0 0
10
20
30
累计应收贷款
不良贷款与累计应收贷款的散点图
14
2
本章主要内容
➢ 相关分析
• 相关关系度量 • 相关关系显著性检验
➢ 一元线性回归分析
• 一元线性回归模型 • 参数的最小二乘估计 • 回归直线的拟合优度 • 显著性检验
➢ 利用回归方程进行预测
➢ 残差分析
3
第一节 直线相关分析 一、变量间的关系
函数关系
相关关系
函数关系的例子
▪ 某种商品的销售额(y)与销售量(x)之间的关系可 表示为 y = px (p 为单价)
儿子与父亲的身高关系:Y=33.73+0.516X(英寸)
24
一、概述——什么是回归分析(Regression )?
1. 从一组样本数据出发,确定变量之间的数学关系式 2. 对这些关系式的可信程度进行各种统计检验,并从
影响某一特定变量的诸多变量中找出哪些变量的影 响显著,哪些不显著 3. 利用所求的关系式,根据一个或几个变量的取值来 预测或控制另一个特定变量的取值,并给出这种预 测或控制的精确程度
第8章 相关关系分析

∴b =
L xy L xx
11 .935 = ≈ 0 .2755 , 43 .315
10 .2 54 .2 a = y − bx = − 0 .2755 × ≈ − 0 .5918 8 8 ∴ 可得回归方程: y = − 0 .5918 + 0 .2755 x
18
∧
参数a=-0.5922的经济含义: 的经济含义: 参数 的经济含义 表明当国民生产总值为0时 表明当国民生产总值为 时,财政收入为负的 0.5922亿元(借钱财政) 亿元( 亿元 借钱财政) 回归系数b=0.2756的经济含义: 的经济含义: 回归系数 的经济含义 国民生产总值每增加1亿元, 国民生产总值每增加 亿元,财政收入将增加 亿元 0.2756亿元 亿元
∧
∧
∑ ( x − x )( y − y ) ∑ ( x − x)
2
16
例:某地区近8年的国民生产总值与财政收入的资料 某地区近 年的国民生产总值与财政收入的资料 如下(单位:亿元)( 如下(单位:亿元)(抽样获得):
国民生产 总值 财政收入 3.6 0.4 3.5 0.5 5.0 0.7 6.4 1.1 8.3 1.6 8.9 1.8 9.0 9.5 1.9 2.2
α=0.05。试:(1)建立回归方程;(2)求国民生产总值达 建立回归方程; 求国民生产总值达 。 建立回归方程 10亿元时财政收入的预测区间。 亿元时财政收入的预测区间。 亿元时财政收入的预测区间 解:1)通过散点图可知两者呈直线相关 )
2)通过计算可得: x = 54 .2, x 2 = 410 .52, xy = 81 .04, ∑ ∑ ∑
( y − y ) = 0 , ∑ ( y − y ) 2 = min ∑ a = y − b x n ∑ xy − ∑ x ∑ y = ⇒ b = 2 2 n ∑ x − (∑ x ) = ∑ xy − n x y = L xy L xx x 2 − n( x) 2 ∑
新教材2023版高中数学第八章成对数据的统计分析8.2一元线性回归模型及其应用课件

巩固训练1 (1)为了解儿子身高与其父亲身高的关系,随机抽取5对 父子的身高数据如下:
父亲身高x/cm 174 176 176 176 178 儿子身高y/cm 175 175 176 177 177
则y对x的经验回归方程为( ) A.yො=x-1 B.yො=x+1 C.yො=88+12x D.yො=176
教材要点
要点一 一元线性回归模型
我们称ቊE
Y e
= bx + a = 0,D
+ e
e=,σ2为Y关于x的一元线性回归模型❶,其中
Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未 知参数,a称为___截__距___参数,b称为___斜__率___参数;e是Y与bx+a之 间的_随__机_误__差__.
2.某商品销售量y(件)与销售价格x(元/件)负相关,则其经验回归方 程可能是( )
A.yො=-10x+200 B.yො=10x+200 C.yො=-10x-200 D.yො=10x-200
答案:A
解析:∵y与x负相关,∴排除B,D,又∵C项中x>0时,yො <0不合题意,∴C 错.故选A.
3.甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选 择了4种不同模型,计算可得它们的R2分别如下表:
8.2 一元线性回归模型及其应用
新知初探·课前预习
题型探究·课堂解透
课标解读 1.结合具体实例,了解一元线性回归模型的含义,了解模型参数的 统计意义. 2.了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计 方法,会使用相关的统计软件. 3.针对实际问题,会用一元线性回归模型进行预测.
新知初探·课前预习
解析:令x=15,所以yො=0.76×15+0.4=11.8.
2024春高中数学第8章成对数据的统计分析8-2一元线性回归模型及其应用8-2-1一元线性回归模型8

(2)通过(1)中的方程,求出y关于x的回归方程.
[解]
=1.2t-1.4,代入t=x-2
Ƹ
017,z=y-5,
得-5=1.2(x-2
ො
017)-1.4,
即=1.2x-2
ො
416.8.
故y关于x的经验回归方程为=1.2x-2
ො
416.8.
◆ 类型3 利用经验回归方程进行预测
【例3】 (源自湘教版教材)一个车间为了估计加工某种新型零件所
(√ )
(2)经验回归方程最能代表观测值x,y之间的线性关系,且回归直线
过样本点的中心(,
ҧ ).
ത
(√ )
(3)求经验回归方程前可以不进行相关性检验.
( × )
(4)利用经验回归方程求出的值是准确值.
( × )
①④
2.下列有关经验回归方程=
ො +
叙述正确的是______(填序号).
位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并
由调查数据得到y对x的经验回归方程:=0.254x+0.321.由经验回
ො
归方程可知,家庭年收入每增加1万元,年饮食支出平均增加
0.254
________万元.
0.254
[由于=0.254x+0.321知,当x增加1万元时,年饮食支出y增
ො
①反映与x之间的函数关系;
ො
②反映与x之间的函数关系;
③表示与x之间不确定关系;
ො
④表示最接近与x之间真实关系的一条直线.
①④
[=
ො +
表示
ො
与x之间的函数关系,而不是y与x之间的函数
ො
关系,但它反映的关系最接近y与x之间的真实关系,故①④正确.]
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
相关系数的经验解释
1. 2. 3. 4. |r|0.8时,可视为两个变量之间高度相关 0.5|r|<0.8时,可视为中度相关 0.3|r|<0.5时,视为低度相关 |r|<0.3时,说明两个变量之间的相关程度 极弱,可视为不相关 5. 上述解释必须建立在对相关系数的显著性 进行检验的基础之上
10名学生的身高与体重散点图
75 70
x
xy
(x
i
x )( y i y ) N
疾病暴发率(Y)
65 60 55 50 45 40 155 160 165 支出(X)
16
y
协方差为负值时,表示负线性相关关系。
170 175 180
相关系数——协方差
75 70 65
x
4
函数关系(几个例子)
函数关系的例子
某种商品的销售额(y)与销售量(x)之间的关系 可表示为 y = px (p 为单价)
圆的面积(S)与半径之间的关系可表示为S=R2
企业的原材料消耗额(y)与产量(x1)、单位产 量消耗(x2)、原材料价格(x3)之间的关系可表 示为y = x1 x2 x3
2 2 2 2
22
相关系数(取值及其意义)
1. r 的取值范围是 [-1,1] 2. |r|=1,为完全相关 r =1,为完全正相关 r = -1,为完全负相关 3. r = 0,不存在线性相关关系相关 4. -1r<0,为负相关 5. 0<r1,为正相关 6. |r|越趋于1表示关系越密切;|r|越趋于0表示 关系越不密切
26
相关系数(例题分析)
27
8.2 一元线性回归
一. 二. 三. 四. 一元线性回归模型 参数的最小二乘估计 回归直线的拟合优度 显著性检验
28
什么是回归分析?(Regression)
1. 2. 从一组样本数据出发,确定变量之间的数学关系式 对这些关系式的可信程度进行各种统计检验,并从影响 某一特定变量的诸多变量中找出哪些变量的影响显著, 哪些不显著 利用所求的关系式,根据一个或几个变量的取值来预测 或控制另一个特定变量的取值,并给出这种预测或控制 的精确程度
y 是 x 的线性函数(部分)加上误差项 线性部分反映了由于 x 的变化而引起的 y 的变化 误差项 是随机变量
反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响 是不能由 x 和 y 之间的线性关系所解释的变异性
34
0 和 1 称为模型的参数
一元线性回归模型(基本假定)
方程的图示是一条直线,也称为直线回归方程
第八章 相关与一元回归分析
8.1 变量间关系的度量 8.2 一元线性回归 8.3 利用回归方程进行估计和预测
1
学习内容
1.相关系数的分析方法
2. 线性回归的基本原理和参数的最小二乘估计 3. 回归直线的拟合优度 4. 回归方程的显著性检验 5. 利用回归方程进行估计和预测
2
8.1 变量间关系的度量
3.
29
回归分析与相关分析的区别
1. 相关分析中,变量 x变量y 处于平等的地位;回归分 析中,变量 y 称为因变量,处在被解释的地位, x 称为自变量,用于预测因变量的变化 2. 相关分析中所涉及的变量 x 和y都是随机变量;回归 分析中,因变量 y 是随机变量,自变量 x可以是随机 变量,也可以是非随机的确定变量 3. 相关分析主要是描述两个变量之间线性关系的密切 程度;回归分析不仅可以揭示变量 x 对变量 y 的影响 大小,还可以由回归方程进行预测和控制
À ¼ Û Æ ² Á ´ ¿ Ó À ¼ Ó Ê ´ ¿ Ó Ê ´ ¿ » ¼ û î ë Û Æ ¦ Õ û î ¦ Õ û î µ É µ Í Ä ¢ ã ¼
12
相关系数(correlation
coefficient)
1. 对变量之间关系密切程度的度量 2. 对两个变量之间线性相关程度的度量称为简单相关系数 3. 若相关系数是根据总体全部数据计算的,称为总体相关 系数,记为 4. 若是根据样本数据计算的,则称为样本相关系数,记为
商品的消费量(y)与居民收入(x)之间的关系
商品销售额(y)与广告费支出(x)之间的关系
7
相关关系(类型)
相关关系
线 性相关 非 线性相关 完 全相关 不相关
正 相关
负 相关
正 相关
负 相关
8
散点图(scatter diagram)
非线性相关
r源自13相关系数 (计算公式)
样本相关系数的计算公式
r n xy x y n x x n y y
2 2 2 2
14
相关系数——协方差
10名学生的身高与体重散点图
75 70 65
体重(Y)
Ⅳ ( x x )( y y ) Ⅰ( x x )( y y )
1. 误 差 项 ε 是 一 个 期 望 值 为 0 的 随 机 变 量 , 即 E(ε)=0。对于一个给定的x值,y的期望值为 E ( y ) = 0+ 1 x 1. 对于所有的x值,ε的方差σ2 都相同 2. 误差项ε是一个服从正态分布的随机变量,且相 互独立。即ε-N( 0 ,σ2 )
32
回归模型(regression
model)
1. 回答“变量之间是什么样的关系?” 2. 方程中运用
1 个数字的因变量(响应变量)
被预测的变量
1 个或多个数字的或分类的自变量 (解释变 量)
用于预测的变量
3. 主要用于预测和估计
33
一元线性回归模型
1. 描述因变量 y 如何依赖于自变量 x 和误差项 的方程称为回归模型 2. 一元线性回归模型可表示为 y = b0 + b1 x +
5
相关关系(correlation)
1. 变量间关系不能用函数关 系精确表达 2. 一个变量的取值不能由另 一个变量唯一确定 3. 当变量 x 取某个值时, 变量 y 的取值可能有几 个 4. 各观测点分布在直线周围
y
x
6
相关关系(几个例子)
相关关系的例子
父亲身高(y)与子女身高(x)之间的关系 收入水平(y)与受教育程度(x)之间的关系 粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度 (x3)之间的关系
10
散点图(例题分析)
11
散点图(例题分析)
14 12 10
14 12 10
»¼ûî ²Á´¿
8 6 4 2 0
0 50 100 150 200
»¼ûî ²Á´¿
8 6 4 2 0
0 100 200 300 400
¸ ¶ ײ Í ×¶ Ì ¨Ê ú ¶ Ê î ² Á ´ ¿ Ó ¸ ¶ ײ Í ×¶ » ¼ û î ë Ì ¨Ê ú ¶ Ê î µ É µ Í Ä ¢ ã ¼
独立性意味着对于一个特定的x值,它所对应的ε与 其他x值所对应的ε不相关 对于一个特定的x值,它所对应的y值与其他x所对应 的y值也不相关 35
回归方程
(regression equation)
1. 描述 y 的平均值或期望值如何依赖于 x 的方程称为回 归方程 2. 一元线性回归方程的形式如下 E( y ) = 0 + 1 x
xy
(x
i
x )( y i y ) N
19
相关系数——协方差
xy
大 于
(x (x
cm
i
kg
N
x )( y i y )
mm
i
kg
xy
x )( y i y ) N
基本结论:协方差受计量单位影响,从而不能真实 反映相关的程度。 20
xy
(x
i
x )( y i y ) N
样本协方差:
S xy
(x
i
x )( y i y ) n 1
18
相关系数——协方差
协方差为大的正值时,表 示强的正线性相关关系。
协方差
协方差接近于零时,表示很 小,没有线性相关关系。
协方差为大的负值时,表 示强的负线性相关关系。
为负
x
xy
(x
i
x )( y i y ) N
为正
y
60 55 50 45 40 155 160 165 170 175
Ⅲ ( x x )( y y ) Ⅱ ( x x )( y y )
为正 为负
协方差为正值时,表示正线性相关关系。
180 15
相关系数——协方差
23
相关系数(取值及其意义)
完全负相关 无线性相关 完全正相关
-1.0
-0.5
0
+0.5
正相关程度增加
+1.0
r
负相关程度增加
24
相关系数的性质
性质1:r具有对称性。即x与y之间的相关系数和y与x之间 的相关系数相等,即rxy= ryx 性质2:r数值大小与x和y原点及尺度无关,即改变x和y的 数据原点及计量尺度,并不改变r数值大小 性质3:仅仅是x与y之间线性关系的一个度量,它不能用 于描述非线性关系。这意味着, r=0只表示两个变 量之间不存在线性相关关系,并不说明变量之间没 有任何关系 性质4:r虽然是两个变量之间线性关系的一个度量,却不 一定意味着x与y一定有因果关系
30
回归模型的类型