回归分析的基本思想及其初步应用2
回归分析的基本思想及其初步应用第二、第三课时1
郑廷状
数学3——统计内容
1. 画散点图
2. 了解最小二乘法的思想
3. 求回归直线方程 y=bx+a
4. 用回归直线方程解决应用问题
徐闻中学
郑廷状
最小二乘法:
ˆ ˆ bx a ˆ y
n n (x -x )(y - y ) x y -n x y i i i i b = i= 1 ˆ = i= 1 , n n 2 2 2 (x -x ) x -n x i i i= 1 i= 1 ˆ a = y -b x . ˆ n 1 n 其 中x= x i ,y = yi. n i= 1 n i= 1 1
求根据女大学生的身高预报体重的回归方程,并预报 一名身高为172cm的女大学生的体重.
ˆ y 故所求回归方程为: 0.849 x 85.712
r=0.798>0.75 表明体重与身高有很强的线性相关性,从 而说明我们建立的回归模型是有意义的.
徐闻中学 郑廷状
例《导与练》P55例2
徐闻中学
郑廷状
i 1
总体偏差平方和
显然,当R2的值越大,说明残差所占的比例越小,回归效果 约好;反之,回归效果越差。一般的,当R2越接近于1,说明解 释变量和预报变量之间的相关性越强,如果同一个问题,采用不 同的回归方法分析,我们可以通过选择R2大的来作为回归模型
徐闻中学 郑廷状
一般方法:
1.利用散点图观察两个变量是否线性相关
n
( yi y )
2
i 1
把所有的这种效应利用总体偏差平方和合并成一个数 解释变量
?
总体偏差平方和
?
徐闻中学 郑廷状
随机误差
我们现在要弄清楚这个总的效应中,有多少来自解释变量, 有多少来自随机误差,即:哪一个效应起决定性作用?
回归分析的基本思想及其初步应用
回归分析的结果解读和评估
回归分析的结果应该经过详细的解读和评估。我们可以通过检验假设、计算回归系数的显著性、解释模 型的可解释性等来个领域都有广泛的应用,包括经济学、社会科学、医学、市场 营销等。它可以帮助我们理解变量之间的关系、预测未来的趋势,并支持决 策和策略制定。
回归分析的数据准备
在进行回归分析之前,需要准备好相关的数据。这包括收集和整理数据、处 理缺失值和异常值、选择合适的变量和转换方法等。良好的数据准备可以提 高回归分析的准确性和可靠性。
回归分析的基本思想及其 初步应用
回归分析是一种用来研究变量之间关系的统计方法。它的基本思想是通过建 立数学模型来描述变量之间的关系,并利用统计学方法来判断这种关系的显 著性和可靠性。
回归分析的定义与含义
回归分析是一种通过建立数学模型来描述两个或多个变量之间关系的统计学方法。它可以帮助我们理解 变量之间的因果关系,预测未来的变化趋势,并进行决策和策略制定。
回归分析的基本原理
回归分析的基本原理是通过最小化预测值与观察值之间的差异来确定最佳拟 合线。它使用最小二乘法来估计模型参数,并通过假设检验来评估模型的显 著性。
回归分析的常用模型
回归分析有多种常用模型,包括简单线性回归、多元线性回归、逻辑回归等。 每个模型都适用于不同的数据类型和研究问题,选择合适的模型可以提高分 析的准确性和可解释性。
第九讲 回归分析的基本思想及其初步应用
个性化教学辅导教案学科: 任课教师:授课时间:年月日(星期) 姓名年级性别课题第九讲回归分析的基本思想及其初步应用知识框架1. 通过对实际问题的分析,了解回归分析的必要性与回归分析的一般步骤。
2. 能作出散点图,能求其回归直线方程。
3. 会用所学的知识对简单的实际问题进行回归分析。
难点重点重点:难点:课前检查作业完成情况:优□ 良□ 中□ 差□作业完成建议:教学过程如下:要点一、变量间的相关关系1. 变量与变量间的两种关系:(1)函数关系:这是一种确定性的关系,即一个变量能被另一个变量按照某种对应法则唯一确定.例如圆的面积.S与半径r之间的关系S=πr2为函数关系.(2)相关关系:这是一种非确定性关系.当一个变量取值一定时,另一个变量的取值带有一定的随机性,这两个变量之间的关系叫做相关关系。
例如人的身高不能确定体重,但一般来说“身高者,体重也重”,我们说身高与体重这两个变量具有相关关系.2. 相关关系的分类:(1)在两个变量中,一个变量是可控制变量,另一个变量是随机变量,如施肥量与水稻产量;(2)两个变量均为随机变量,如某学生的语文成绩与化学成绩.3. 散点图:将两个变量的各对数据在直角坐标系中描点而得到的图形叫做散点图.它直观地描述了两个变量之间有没有相关关系.这是我们判断的一种依据.4. 回归分析:与函数关系不同,相关关系是一种非确定性关系,对具有相关关系的两个变量进行统计分析的方法叫做回归分析。
例题讲解类型一、利用散点图判断两个变量的线性相关性例1.在某种产品表面进行腐蚀刻线试验,得到腐蚀深度y与腐蚀时间x的一组数据如下表所示.x/秒 5 10 15 20 30 40 50 60y/微米 6 10 11 13 16 17 19 23(1)画出散点图.(2)根据散点图,你能得出什么结论?课堂练习【1】给出x 与y 的数据如下:x 2 4 5 6 8 y3040605070画出散点图,并由图判断x 、y 之间是否具有线性相关关系。
回归分析的基本思想及其初步应用
回归分析的基本思想及其初步应用1.回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,回归分析的基本步骤是画出两个变量的散点图,求回归直线方程,并用回归直线方程进行预报. 2.线性回归模型(1)在线性回归直线方程y ^=a ^+b ^x 中,b ^=∑ni =1 (x i -x )(y i -y )∑ni =1(x i -x )2,a ^=y --b ^x -,其中x -=1n ∑ni =1x i ,y -=1n∑ni =1y i ,(x ,y )称为样本点的中心,回归直线过样本点的中心. (2)线性回归模型y =bx +a +e ,其中e 称为随机误差,自变量x 称为解释变量,因变量y 称为预报变量.[注意] (1)非确定性关系:线性回归模型y =bx +a +e 与确定性函数y =a +bx 相比,它表示y 与x 之间是统计相关关系(非确定性关系),其中的随机误差e 提供了选择模型的准则以及在模型合理的情况下探求最佳估计值a ,b 的工具.(2)线性回归方程y ^=b ^x +a ^中a ^,b ^的意义是:以a ^为基数,x 每增加1个单位,y 相应地平均增加b ^个单位.3.刻画回归效果的方式方式方法计算公式 刻画效果R 2R 2=1-∑ni =1(y i -y ^i )2∑n i =1(y i -y )2R 2越接近于1,表示回归的效果越好残差图e ^i 称为相应于点(x i ,y i )的残差,e ^i =y i -y ^i残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高残差平方和∑ni =1(y i -y ^i )2 残差平方和越小,模型的拟合效果越好判断正误(正确的打“√”,错误的打“×”) (1)求线性回归方程前可以不进行相关性检验.( )(2)在残差图中,纵坐标为残差,横坐标可以选为样本编号.( )(3)利用线性回归方程求出的值是准确值.( ) 答案:(1)× (2)√ (3)×变量x 与y 之间的回归方程表示( )A .x 与y 之间的函数关系B .x 与y 之间的不确定性关系C .x 与y 之间的真实关系形式D .x 与y 之间的真实关系达到最大限度的吻合 答案:D在两个变量y 与x 的回归模型中,分别选择了4个不同的模型,它们的相关指数R 2如下,其中拟合效果最好的模型是( )A .模型1的相关指数R 2为0.98 B .模型2的相关指数R 2为0.80 C .模型3的相关指数R 2为0.50 D .模型4的相关指数R 2为0.25 答案:A已知线性回归方程y ^=0.75x +0.7,则x =11时,y 的估计值为________. 答案:8.95探究点1 线性回归方程在某种产品表面进行腐蚀刻线试验,得到腐蚀深度y 与腐蚀时间x 之间的一组观察值如下表.x (s) 5 10 15 20 30 40 50 60 70 90 120 y (μm)610101316171923252946(1)画出散点图;(2)求y 对x 的线性回归方程;(3)利用线性回归方程预测时间为100 s 时腐蚀深度为多少. 【解】 (1)散点图如图所示.(2)从散点图中,我们可以看出y 对x 的样本点分布在一条直线附近,因而求回归直线方程有意义.x =111(5+10+15+ (120)=51011,y =111(6+10+10+…+46)=21411,a ^=y -b ^x ≈21411-0.304×51011= 5.36. 故腐蚀深度对腐蚀时间的线性回归方程为y =0.304x + 5.36.(3)根据(2)求得的线性回归方程,当腐蚀时间为100 s 时,y ^=5.36+0.304×100=35.76(μm),即腐蚀时间为100 s 时腐蚀深度大约为35.76 μm.求线性回归方程的三个步骤(1)画散点图:由样本点是否呈条状分布来判断两个量是否具有线性相关关系. (2)求回归系数:若存在线性相关关系,则求回归系数.(3)写方程:写出线性回归方程,并利用线性回归方程进行预测说明.炼钢是一个氧化降碳的过程,钢水含碳量的多少直接影响冶炼时间的长短,必须掌握钢水含碳量和冶炼时间的关系.如果已测得炉料熔化完毕时钢水的含碳量x 与冶炼时间y (从炼料熔化完毕到出钢的时间)的数据(x i ,y i )(i =1,2,…,10)并已计算出=1589,i =110y i =1 720,故冶炼时间y 对钢水的含碳量x 的回归直线方程为y ^=1.267x -30.47. 探究点2 线性回归分析假定小麦基本苗数x 与成熟期有效穗y 之间存在相关关系,今测得5组数据如下:(1)以x 为解释变量,y 为预报变量,作出散点图;(2)求y 与x 之间的回归方程,对于基本苗数56.7预报有效穗; (3)计算各组残差,并计算残差平方和;(4)求相关指数R 2,并说明残差变量对有效穗的影响占百分之几? 【解】 (1)散点图如下.(2)由图看出,样本点呈条状分布,有比较好的线性相关关系,因此可以用回归方程刻画它们之间的关系.设回归方程为y ^=b ^x +a ^,x -=30.36,y -=43.5,(1)该类题属于线性回归问题,解答本题应先通过散点图来分析两变量间的关系是否线性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图或相关指数R 2来分析函数模x 15.0 25.8 30.0 36.6 44.4 y39.442.942.943.149.2型的拟合效果,在此基础上,借助回归方程对实际问题进行分析. (2)刻画回归效果的三种方法①残差图法:残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适; ②残差平方和法:残差平方和 i =1n(y i -y ^i )2越小,模型的拟合效果越好;关于x 与y 有如下数据:x 2 4 5 6 8 y3040605070由(2)可得y i -y ^i 与y i -y -的关系如下表:y i -y ^i -1 -5 8 -9 -3 y i -y --20-101020由于R 21=0.845,R 22=0.82,0.845>0.82, 所以R 21>R 22.所以(1)的拟合效果好于(2)的拟合效果. 探究点3 非线性回归分析某地今年上半年患某种传染病的人数y (人)与月份x (月)之间满足函数关系,模型为y =a e bx ,确定这个函数解析式.月份x /月 1 2 3 4 5 6 人数y /人526168747883【解】 设u =ln y ,c =ln a , 得u ^=c ^+b ^x ,则u 与x 的数据关系如下表:x12 3 4 56u =ln y 3.95 4.114.224.3044.356 7 4.418 8非线性回归方程的步骤(1)确定变量,作出散点图.(2)根据散点图,选择恰当的拟合函数.(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程. (4)分析拟合效果:通过计算相关指数或画残差图来判断拟合效果. (5)根据相应的变换,写出非线性回归方程.某种书每册的成本费y (元)与印刷册数x (千册)有关,经统计得到数据如下:x(千册)1 2 3 5 10 20 30 50 100 200 y (元)10.155.524.082.852.111.621.411.301.211.15检验每册书的成本费y (元)与印刷册数的倒数1x之间是否具有线性相关关系,如有,求出y 对x 的回归方程,并画出其图形.解:首先作变量置换u =1x,题目中所给的数据变成如下表所示的10对数据.u i 1 0.5 0.33 0.2 0.1 0.05 0.03 0.02 0.01 0.005 y i10.155.524.082.852.111.621.411.301.211.15然后作相关性检测.经计算得r ≈0.999 8>0.75,从而认为u 与y 之间具有线性相关关系,由公式得a ^≈1.125,b ^≈8.973,所以y ^=1.125+8.973u ,最后回代u =1x ,可得y ^=1.125+8.973x.这就是题目要求的y 对x 的回归方程.回归方程的图形如图所示,它是经过平移的反比例函数图象的一个分支.1.关于回归分析,下列说法错误的是( ) A .回归分析是研究两个具有相关关系的变量的方法 B .散点图中,解释变量在x 轴,预报变量在y 轴C .回归模型中一定存在随机误差D .散点图能明确反映变量间的关系解析:选D.用散点图反映两个变量间的关系时,存在误差. 2.下列关于统计的说法:①将一组数据中的每个数据都加上或减去同一个常数,方差恒不变; ②回归方程y ^=b ^x +a ^必经过点(x ,y ); ③线性回归模型中,随机误差e =y i -y ^i ;④设回归方程为y ^=-5x +3,若变量x 增加1个单位,则y 平均增加5个单位. 其中正确的为________(写出全部正确说法的序号).解析:①正确;②正确;③线性回归模型中,随机误差的估计值应为e ^i =y i -y ^i ,故错误;④若变量x 增加1个单位,则y 平均减少5个单位,故错误. 答案:①②3.某商场经营一批进价是30元/台的小商品,在市场试销中发现,此商品的销售单价x (x 取整数)(元)与日销售量y (台)之间有如下关系:x 35 40 45 50 y56412811(1)画出散点图,并判断y 与x 是否具有线性相关关系;(2)求日销售量y 对销售单价x 的线性回归方程(方程的斜率保留一个有效数字); (3)设经营此商品的日销售利润为P 元,根据(2)写出P 关于x 的函数关系式,并预测当销售单价x 为多少元时,才能获得最大日销售利润.解:(1)散点图如图所示,从图中可以看出这些点大致分布在一条直线附近,因此两个变量具有线性相关关系.(2)因为x -=14×(35+40+45+50)=42.5,(3)依题意有P =(161.5-3x )(x -30) =-3x 2+251.5x -4 845=-3⎝⎛⎭⎪⎫x -251.562+251.5212-4 845. 所以当x =251.56≈42时,P 有最大值,约为426元.故预测当销售单价为42元时,能获得最大日销售利润.知识结构深化拓展线性回归模型的模拟效果(1)残差图法:观察残差图,如果残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.(2)残差的平方和法:一般情况下,比较两个模型的残差比较困难(某些样本点上一个模型的残差的绝对值比另一个模型的小,而另一些样本点的情况则相反),故通过比较两个模型的残差的平方和的大小来判断模型的拟合效果.残差平方和越小的模型,拟合的效果越好.(3)R 2法:R 2的值越大,说明残差平方和越小,也就是说模型拟合的效果越好.[注意] r 的绝对值越大说明变量间的相关性越强,通常认为r 的绝对值大于等于0.75时就是有较强的相关性,同样R 2也是如此,R 2越大拟合效果越好.[A 基础达标]1.废品率x %和每吨生铁成本y (元)之间的回归直线方程为y ^=256+3x ,表明( ) A .废品率每增加1%,生铁成本增加259元 B .废品率每增加1%,生铁成本增加3元 C .废品率每增加1%,生铁成本平均每吨增加3元 D .废品率不变,生铁成本为256元解析:选C.回归方程的系数b ^表示x 每增加一个单位,y ^平均增加b ^,当x 为1时,废品率应为1%,故当废品率增加1%时,生铁成本平均每吨增加3元.2.已知某产品连续4个月的广告费用为x i (i =1,2,3,4)千元,销售额为y i (i =1,2,3,4)万元,经过对这些数据的处理,得到如下数据信息:①x 1+x 2+x 3+x 4=18,y 1+y 2+y 3+y 4=14;②广告费用x 和销售额y 之间具有较强的线性相关关系;③回归直线方程y ^=b ^x +a ^中,b ^=0.8(用最小二乘法求得),那么当广告费用为6千元时,可预测销售额约为( )A .3.5万元B .4.7万元C .4.9万元D .6.5万元解析:选B.依题意得x =4.5,y =3.5,由回归直线必过样本点中心得a ^=3.5-0.8×4.5=-0.1,所以回归直线方程为y ^=0.8x -0.1.当x =6时,y ^=0.8×6-0.1=4.7.3.某化工厂为预测某产品的回收率y ,需要研究它和原料有效成分含量之间的相关关系,现取了8对观测值,计算得的线性回归方程是( )A.y ^=11.47+2.62xB.y ^=-11.47+2.62x C.y ^=2.62+11.47x D.y ^=11.47-2.62x 解析:选A.由题中数据得x =6.5,y =28.5,a ^=y -b ^x =28.5-2.62×6.5=11.47,所以y 与x 的线性回归方程是y ^=2.62x +11.47.故选A.4.若某地财政收入x 与支出y 满足线性回归方程y =bx +a +e (单位:亿元),其中b =0.8,a =2,|e |≤0.5.如果今年该地区财政收入10亿元,则年支出预计不会超过( )A .10亿元B .9亿元C .10.5亿元D .9.5 亿元解析:选C.代入数据y =10+e ,因为|e |≤0.5, 所以9.5≤y ≤10.5,故不会超过10.5亿元.5.某种产品的广告费支出x 与销售额y (单位:万元)之间的关系如下表:y 与x 的线性回归方程为y =6.5x +17.5,当广告支出5万元时,随机误差的效应(残差)为________.解析:因为y 与x 的线性回归方程为y ^=6.5x +17.5,当x =5时,y ^=50,当广告支出5万元时,由表格得:y =60,故随机误差的效应(残差)为60-50=10. 答案:106.若一组观测值(x 1,y 1),(x 2,y 2),…,(x n ,y n )之间满足y i =bx i +a +e i (i =1,2,…,n ),且e i 恒为0,则R 2为________.解析:由e i 恒为0,知y i =y ^i ,即y i -y ^i =0, 故R 2=1-∑ni =1 (y i -y ^i )2∑n i =1 (y i -y )2=1-0=1.答案:17.某个服装店经营某种服装,在某周内获纯利y (元)与该周每天销售这种服装件数x 之间的一组数据关系见表:已知∑7i =1x 2i =280,∑7i =1x i y i =3 487. (1)求x ,y ;(2)已知纯利y 与每天销售件数x 线性相关,试求出其回归方程. 解:(1)x =3+4+5+6+7+8+97=6,y =66+69+73+81+89+90+917=5597.(2)因为y 与x 有线性相关关系,所以b ^=∑7i =1x i y i-7x y ∑7i =1x 2i -7x 2=3 487-7×6×5597280-7×36=4.75,a ^=5597-6×4.75=71914≈51.36.故回归方程为y ^=4.75 x +51.36.8.已知某校5个学生的数学和物理成绩如下表:(1)假设在对这5名学生成绩进行统计时,把这5名学生的物理成绩搞乱了,数学成绩没出现问题,问:恰有2名学生的物理成绩是自己的实际分数的概率是多少?(2)通过大量事实证明发现,一个学生的数学成绩和物理成绩具有很强的线性相关关系,在上述表格是正确的前提下,用x 表示数学成绩,用y 表示物理成绩,求y 与x 的回归方程; (3)利用残差分析回归方程的拟合效果,若残差和在(-0.1,0.1)范围内,则称回归方程为“优拟方程”,问:该回归方程是否为“优拟方程”?参考数据和公式:y ^=b ^x +a ^,其中.解:(1)记事件A 为“恰有2名学生的物理成绩是自己的实际成绩”, 则P (A )=2C 25A 55=16.(2)因为x =80+75+70+65+605=70,y =70+66+68+64+625=66,学生的编号i 1 2 3 4 5 数学x i 80 75 70 65 60 物理y i7066686462[B 能力提升]9.假设关于某设备的使用年限x和所支出的维修费用y(万元)有如表的统计资料:使用年限x 2 3 4 5 6 维修费用y 2.2 3.8 5.5 6.5 7.010.(选做题)某地区不同身高的未成年男性的体重平均值如表所示:身高x(cm)60708090100110体重y(kg) 6.137.909.9912.1515.0217.50身高x(cm)120130140150160170体重y(kg)20.9226.8631.1138.8547.2555.05 (1)(2)如果体重超过相同身高男性体重平均值的1.2倍为偏胖,低于0.8倍为偏瘦,那么这个地区一名身高175 cm 、体重82 kg 的在校男生体重是否正常? 解:(1)根据题表中的数据画出散点图如图所示.由图可看出,样本点分布在某条指数函数曲线y =c 1e c 2x的周围, 于是令z =ln y ,得下表:x 60 70 80 90 100 110 z 1.81 2.07 2.30 2.50 2.71 2.86 x 120 130 140 150 160 170 z3.043.293.443.663.864.01作出散点图如图所示:由表中数据可得z 与x 之间的回归直线方程为 z ^=0.662 5+0.020x ,则有y ^=e 0.662 5+0.020x .(2)当x =175时,预报平均体重为y ^=e 0.662 5+0.020×175≈64.23, 因为64.23×1.2≈77.08<82,所以这个男生偏胖.。
《回归分析的基本思想及其初步应用》
线性关系, 则选用线性回归方程y bx a );
4 按一定规则估计回归方程中的参数 ( 如最小二
乘法); 5 得出结果后分析残差图是否有异常 (个别数据对
应残差过大, 或残差呈现不随机的规律性等等), 若存 在异常, 则检查数据是否有误, 或模型是否合适等.
2014-4-24
2014-4-24
b 0.849是斜率的估计值, 说明身高x每增加 1个单位时, 体重y就增加0.849个单位, 这表明 体重与身高具有正的线性相关关系如何描述 . 它们之间线性相关关系的强弱 ?
2014-4-24
探究 身高 172cm的 女大学生的体重一定 是 60.316kg 吗 ? 如果 不是, 其原因是什么? 显然, 身高172cm的女
x
180
ˆ y bx a 2014-4-24
图1.1 1
从图1.1 1中可以看出, 样本点呈条状分布 , 身 高和体 重有比 较好的 线性相关关系 ,因此可 以用线 性回归方程刻
y
70 65 60 55 50 45 40 150 155 160 165 170 175
x
180
画它们之间的关系. 根据探究中的公式 1 和 2 , 可以得到
函数关系中的两个变量间是一种确定性关系 相关关系是一种非确定性关系 函数关系是一种理想的关系模型 相关关系在现实生活中大量存在,是更一 般的情况
2014-4-24
在现实中 , 我们经常会遇到类似下 面的问题 : 肺癌是严重威胁人类性命的一种疾病 , 吸烟 与患肺癌有关系吗 ? 肥胖是影响人类健康的 一个重要因素,身高和 体重之间是否存在 线 性相关关系 ? 等等.
不能用女大学生的身高和体重之间的回归方程, 描述 女运动员的身高和体重之间的关系同样 . , 不能用生长 在南方多雨地区的树木的高与直径之间的回归方程, 描述北方干旱地区的树木的高与直径之间的关系.
1[1].1回归分析的基本思想及其初步应用
求根据女大学生的身高预报体重的回归方程,并 预报一名身高为172cm的女大学生的体重.
例1
从某大学中随机选出8名女大学生……
解:由于问题中要求根据身高预报体重,因此选取
61 (0.849 165 85.712) 6.627
0.849 x 85.712 y
编 号 身 高 体 重 1 165 48 2 165 57 3 157 50 4 170 54 5 175 64 6 165 61 7 155 43 8 170 59
残差平方和
把每一个残差所得的值平方后加起来,用数学符号表示为: n ( yi i ) 2 称为残差平方和 y
结合例1除了身高影响体重外的其他因素是不可测量的,不能希望有某种方法获 取随机误差的值以提高预报变量的估计精度,但却可以估计预报变量观测值中所 包含的随机误差,这对我们查找样本数据中的错误和模型的评价极为有用,因此 在此我们引入残差概念。
残差
数据点和它在回归直线上相应位置的差异 ei =yi 称为 yi 相应于点(xi,yi ) 的残差。 例:编号为6的女大学生,计算随机误差的效应(残差)
身 高 与 体 重 残 差 图
异 常 点
• 错误数据 • 模型问题
误差与残差,这两个概念在某程度上具有很大的相似性, 都是衡量不确定性的指标,可是两者又存在区别。 误差与测量有关,误差大小可以衡量测量的准确性,误差 越大则表示测量越不准确。误差分为两类:系统误差与 随机误差。其中,系统误差与测量方案有关,通过改进测 量方案可以避免系统误差。随机误差与观测者,测量工具, 被观测物体的性质有关,只能尽量减小,却不能避免。 残差――与预测有关,残差大小可以衡量预测的准确性。 残差越大表示预测越不准确。残差与数据本身的分布特性, 回归方程的选择有关。
回归分析的基本思想及其初步应用分解
是真实值 与估计值 的差!
yˆi 0.849xi 85.712, ei yi yi ,
如e3 y3 y3 50 47.581 2.419
相关关系的测度
(相关系数取值及其意义)
完全负相关
无线性相关
完全正相关
-1.0 -0.5
0
+0.5 +1.0
r
负相关程度增加 正相关程度增加
编号,或身高数据,或体重估计值等,这样作出的图形称为残差图。
残差图的制作及作用。
•几点坐说标明纵:轴为残差变量,横轴可以有不同的选择; 的错第•误一。个若如样果模本数点据型和采选第集6有择个错样的误本,点正就的确予残以差,纠比残正较,大差然,图后需再要中重确新的认利在点用采线应集性过该回程归中分模是布型否拟有在合人以数为 据;如果横数据轴采集为没心有错的误带,则形需区要寻域找;其他的原因。 样的另•带外状,对区残域差于的点宽远比度较离越均窄横匀,地轴说落明的在模水点型平拟,的合带要精状度区特越域别高中,,注回说归意明方选。程用的的预模报型精计度较越合高适。,这
例1 从某大学中随机选取8名女大学生,其身高和 体重数据如下表所示:
编号 1 2 3 4 5 6 7 8 身高/cm 165 165 157 170 175 165 155 170 体重/kg 48 57 50 54 64 61 43 59
求根据女大学生的身高预报她的体重的回归方程, 并预报一名身高为172cm的女大学生的体重.
(3)对回归模型进行统计检验; (4)利用回归模型,根据自变量去估计、预测、预 报因变量。
最小二乘法求线性回归直线方程:yˆ = bˆ x + aˆ
(x,y)称为样本点的中心。
高中数学《1.1回归分析的基本思想及其初步应用》教案2 新人教A版选修1-2
11.1回归分析的基本思想及其初步应用(二)教学要求:通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用. 教学重点:了解评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和. 教学难点:了解评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和. 教学过程:一、复习准备:1.由例1知,预报变量(体重)的值受解释变量(身高)或随机误差的影响.2.为了刻画预报变量(体重)的变化在多大程度上与解释变量(身高)有关?在多大程度上与随机误差有关?我们引入了评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和. 二、讲授新课:1. 教学总偏差平方和、残差平方和、回归平方和:(1)总偏差平方和:所有单个样本值与样本均值差的平方和,即21()ni i SST y y ==-∑.残差平方和:回归值与样本值差的平方和,即21()ni i i SSE y y ==-∑. 回归平方和:相应回归值与样本均值差的平方和,即21()ni i SSR y y ==-∑. (2)学习要领:①注意i y 、 i y 、y 的区别;②预报变量的变化程度可以分解为由解释变量引起的变化程度与残差变量的变化程度之和,即222111()()()n n ni i i i i i i y y y y y y ===-=-+-∑∑∑;③当总偏差平方和相对固定时,残差平方和越小,则回归平方和越大,此时模型的拟合效果越好;④对于多个不同的模型,我们还可以引入相关指数 22121()1()nii i n ii yy R yy ==-=--∑∑来刻画回归的效果,它表示解释变量对预报变量变化的贡献率. 2R 的值越大,说明残差平方和越小,也就是说模型拟合的效果越好. 2. 教学例题:为了对x 、Y 两个变量进行统计分析,现有以下两种线性模型: 6.517.5y x =+,717y x =+,试比较哪一个模型拟合的效果更好.分析:既可分别求出两种模型下的总偏差平方和、残差平方和、回归平方和,也可分别求出两种模型下的相关指数,然后再进行比较,从而得出结论. (答案:52211521()155110.8451000()i i i ii y y R y y ==-=-=-=-∑∑,221R =-521521()18010.821000()iii ii y y y y ==-=-=-∑∑,84.5%>82%,所以甲选用的模型拟合效果较好.)3. 小结:分清总偏差平方和、残差平方和、回归平方和,初步了解如何评价两个不同模型拟合效果的好坏.第三课时。
回归分析的基本思想及其初步应用
t检验用于检验单个自变量对因变量的影响是否显著。如果t检验的P值小于显著性水平,则认为该自变 量对因变量的影响是显著的。
回归系数的解释
偏效应
回归系数表示在其他自变量保持不变 的情况下,某一自变量变化一个单位 时因变量的平均变化量。它反映了自 变量对因变量的偏效应。
标准化回归系数
为了消除自变量量纲的影响,可以对 回归系数进行标准化处理。标准化回 归系数表示自变量和因变量的标准化 值之间的相关系数,具有可比性。
03
回归分析的初步应用
一元线性回归分析
01
建立一元线性回归模型
通过收集样本数据,以自变量 和因变量的线性关系为基础, 建立一元线性回归模型。
02
参数估计
利用最小二乘法等估计方法, 对模型中的参数进行估计,得 到回归方程的系数。
03
假设检验
对回归方程进行显著性检验, 判断自变量和因变量之间是否 存在显著的线性关系。
通过调整模型参数或引入新的 变量等方式优化模型,提高模 型的拟合精度和预测能力。
逐步回归分析
1 引入变量
从所有自变量中逐步引入对因变量有显著影响的变量, 建立初始回归模型。
2 检验与调整
从所有自变量中逐步引入对因变量有显著影响的变量, 建立初始回归模型。
3 逐步筛选
从所有自变量中逐步引入对因变量有显著影响的变量, 建立初始回归模型。
立
详细阐述了线性回归模型的构建 过程,包括模型的假设、参数的 估计和模型的检验等步骤。
回归分析的初步应
用
通过实例演示了回归分析在解决 实际问题中的应用,包括预测、 解释变量关系和控制变量等方面 的应用。
对未来学习的建议与展望
深入学习回归分析的理论知识
人教A版高中数学选修1优质课件1:1 1回归分析的基本思想及其初步应用(二)
因此模型(1)的拟合效果远远优于模型(2)
29
66
9.230
32
35
115
325
-13.381 34.675
例3.下表为收集到的一组数据:
x
21
23
25
27
29
32
35
y
7
11
21
24
66
115
325
(1)作出x与y的散点图,并猜测x与y之间的关系;
(2)建立x与y的关系,预报回归模型并计算残差;
要在做各种习题之前将老师所讲的知识点回忆一遍,正确掌握各类公式的推理过程,庆尽量回忆
而不采用不清楚立即翻书之举。认真独立完成作业,勤于思考,从某种意义上讲,应不造成不懂
即问的学习作风,对于有些题目由于自己的思路不清,一时难以解出,应让自己冷静下来认真分
析题目,尽量自己解决。在每个阶段的学习中要进行整理和归纳总结,把知识的点、线、面结合
问题探究
方案1:一元线性模型
350
300
250
200
150
. 93>66 ?
模型不好?
100
50
0
0
3
6
9
12
15
18
21
24
27
30
33
36
39
解:选取气温为解释变量x,产卵数为预报变量y.假设线性回归方程为 :
ŷ=bx+a,由计算得:线性回归方程为y=19.87x-463.73,相关指数
R2=r2≈0.8642=0.7464,当x=28时,y =19.87×28-463.73≈ 93.
750
900 1050 1200 1350
人教版高中数学第三章3.1第2课时线性回归分析
+
8.95
+
9.90
+
10.9
+
11.8)≈9.487,
所以 R2=1-01.40.16378184≈0.999 1, 所以回归模型的拟合效果较好.
(3)由表中数据可以看出残差点比较均匀地落在不超 过 0.15 的狭窄的水平带状区域中,说明选用的线性回归 模型的精度较高,由以上分析可知,弹簧长度与拉力成线 性关系.由残差表中的数值可以看出第 3 个样本点的残差 比较大,需要确认在采集这个数据的时候是否有人为的错 误,如果有的话,需要纠正数据,重新建立回归模型.
由公式得:^z =0.69x+1.115,则有^y=e0.69x+1.115. (2)由计数器得如下数表:
^y 6.08 12.12 24.17 48.18 96.06 191.52 y 6 12 25 49 95 190
R2=1-244.8614621.8≈0.999 8, 即解释变量天数对预报变量繁殖细菌个数解释了 99.98%.
x 21 23 25 27 29 32 35 z 1.946 2.398 3.045 3.178 4.190 4.745 5.784
利用公式求得回归直线方程为^z =0.272x-3.849, 所以^y =e0.272x-3.849
残差:
yi 7
11
21
24
66 115
yi 6.443 11.101
解析:因为^z =0.25x-2.58,^z =ln y,所以 y=e0.25x
-2.58.
答案:y=e0.25x-2.58
类型 1 线性回归分析(自主研析)
[典例 1] 为研究重量 x(单位:克)对弹簧长度 y(单位: 厘米)的影响,对不同重量的 6 个物体进行测量,数据如 下表所示:
人教版A版高中数学选修2-3:3.1 回归分析的基本思想及其初步应用
假设线性回归方程为 :yˆ bˆx aˆ
由计算器得:线性回归方程为
yˆ 19.87x 463.73
线性模型
7
Q(aˆ,bˆ) ( yi yˆi ) 2 19818.9
残差
i1
yˆ 19.87x 463.73 100
就转换为z=bx+a
21
23
25
27
29
32
35
z=lgy
0.85 1.04 1.32 1.38 1.82 2.06 2.51
产卵数y/个
7
11
21
24
66
115 325
7
7
x 27.42 z 1.569 xi zi 318.58
xi2 5414
i 1
i 1
由计算器得:
zˆ关于x的线性回归方程为 zˆ 0.118x 1.665 ,
线性回归分析
其回归直线方程 y bx a 的截距和斜
率的最小二乘法估计公式:
n
n
y bˆ =
(xi - x)(yi - y)
i=1 n
=
(xi - x)2
xi
- nxy
i
i=1
n xi2 - nx2
,
i=1
i=1
aˆ = y - bˆx
2.残差eˆ
残差平方和越
对于样本点(xi,yi)的随机误差 小精确度越高
学习目标
1、了解回归模型的选择,进一步理解非线性 模型通过变换转化为线性回归模型的方法;
2、会用残差及相关系数分析回归模型, 体会不同模型拟合数据的效果;
2-3 3.1回归分析的基本思想及初步应用
学校:临清二中 学科:数学 编写人:赵孝金 审稿人:马英济3.1.1回归分析的基本思想及其初步应用【教学目标】1.了解回归分析的基本思想方法及其简单应用. 2.会解释解释变量和预报变量的关系. 【教学重难点】教学重点:回归分析的应用.教学难点: a、b 公式的推到. 【教学过程】一、设置情境,引入课题引入:对于一组具有线性相关关系的数据112233(,),(,),(,),,(,).n n x y x y x y x y 其回归直线方程的截距和斜率的最小二乘法估计公式分别为:ay b x =- 121()()()nii i nii xx y y b xx ==--=-∑∑11nii x xn==∑ 11ni i y y n==∑(,)x y 称为样本点的中心。
如何推到着两个计算公式?二、引导探究,推出公式从已经学过的知识,截距 a和斜率b 分别是使21(,)()ni i i Q y x αββα==--∑取最小值时,αβ的值,由于212212211(,)[((]{[(2[([(][(]}[(2[([(](nii i nii i i i nnii i i i i Q yx y x y x yx y x y x y x y x y x yx y x y x y x y x n y x αββββαβββββαβαβββββαβα=====-----=---+-----+--=---+-----+--∑∑∑∑ )+))])])))])]))因为1111[((([(([(]([(]0,nnii i i i i nni i i i yx y x y x y x y x y x y x y x n y x y x n y n x n y x βββαβαβββαβββαββ====-----=-----=-----=-----=∑∑∑∑)])))]))))所以2212222111222221122111[([(]()2()()()(()()[()()](()[]()()()nii i nnnii i ii i i nnii i i ni i iinni i iii i Q yx y x n y x xx x x y y yy n y x xx y y x x y y n y x xx yy xx xx αββββαβββαβαβ==========---+--=----+-+------=--+---+---∑∑∑∑∑∑∑∑∑(,))])))1n=∑在上式中,后两项和,αβ无关,而前两项为非负数,因此要使Q 取得最小值,当且仅当前两项的值均为0.,既有121()()()nii i nii xx y y xx β==--=-∑∑ y x αβ=-通过上式推导,可以训练学生的计算能力,观察分析能力,能够很好训练学生数学能力,必须在老师引导下让学生自己推出。
最新人教版高中数学选修1-2《回归分析的基本思想及其初步应用》教材梳理
庖丁巧解牛知识·巧学 一、回归分析回归分析是根据变量观测数据分析变量间关系的常用统计分析方法.通常把变量观测数据称为样本.1.散点图与回归方程(1)设对y 及x 做n 次观测得数据(x i ,y i )(i=1,2,…,n).以(x i ,y i )为坐标在平面直角坐标系中描点,所得到的这张图便称之为散点图.其中x 是可观测、可控制的普通变量,常称它为自变量,y 为随机变量,常称其为因变量.知识拓展 散点图是直观判断变量x 与y 是否相关的有效手段. (2)a 与回归系数b 的计算方法若散点呈直线趋势,则认为y 与x 的关系可以用一元回归模型来描述.设线性回归方程为y=a+bx+ε.其中a 、b 为未知参数,ε为随机误差,它是一个分布与x 无关的随机变量.最小二乘估计aˆ和b ˆ是未知参数a 和b 的最好估计. x b y aˆˆ-=,b ˆ=∑∑==---ni ini i ix xy y x x121)())((.深化升华 bˆ的计算还可以用公式b ˆ=∑∑==--ni ini ii x n xyx n yx 1221来计算,这时只需列表求出相关的量代入即可. 2.相关性检验如下图中的两个散点图,很难判断这些点是不是分布在某条直线附近.假如不考虑散点图,按照最小二乘估计计算a 与b ,我们可以根据一组成对数据,求出一个回归直线方程.但它不能反映这组成对数据的变化规律.为了解决上述问题,我们有必要对x 与y 作线性相关性的检验,简称相关性检验.对于变量x 与y 随机抽取到的n 对数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),检验统计量是样本相关系数r.r=∑∑∑∑∑∑======---=----ni i ni i ni ii ni i n i i ni i iy n y x n x yx n yx y y x x y y x x122122112121)()()()())((.r 具有以下性质:当r 大于0时,表明两个变量正相关,当r 小于0时,表明两个变量负相关;|r|≤1;|r|越接近1,线性相关程度越强;|r|越接近0,线性相关程度越弱.通常当|r|大于0.75时,认为两个变量有很强的线性相关关系.相关性检验临界值如下表所示.相关性检验的临界值表深化升华 相关性检验的步骤也可如下: (1)作统计假设:X 与Y 不具有线性相关关系.(2)根据小概率0.05与n-2在相关性检验的临界值表中查出r 的一个临界值r 0.05. (3)根据样本相关系数计算公式算出r 的值.(4)作出统计推断.如果|r|>r 0.05,表明有95%的把握认为X 与Y 之间具有线性相关关系.如果|r|≤r 0.05,我们没有理由拒绝原来的假设.这时寻找回归直线方程是没有意义的. 3.回归分析的基本概念(1)在数学上,把每个效应(观测值减去总的平均值)的平方和加起来,即用∑=-ni iy y12)(表示总的效应,称为总偏差平方和.(2)数据点和它在回归直线上相应位置的差异(y i -i yˆ)是随机误差的效应,称i e ˆ=(y i -i y ˆ)为残差.(3)分别将残差的值平方后回来,用数学符号表示为∑=-ni i iy y12)(称为残差平方和.它代表了随机误差的效应.(4)总偏差平方和与残差平方和的差称为回归平方和.(5)回归效果的刻画我们可以用相关指数R 2反映.R 2=1-∑∑==--n i ini i iy y yy1212)()ˆ(.显然,R 2的值越大,说明残差平方和越小,也就是说模型的拟合效果越好.4.非线性回归问题 在实际问题中,当变量之间的相关关系不是线性相关关系时,不能用线性回归方程描述它们之间的相关关系,需要进行非线性回归分析,然而非线性回归方程一般很难求,因此把非线性回归化为线性回归应该说是解决问题的好方法.首先,所研究对象的物理背景或散点图可帮助我们选择适当的非线性回归方程yˆ=μ(x;a,b).其中a及b为未知参数,为求参数a及b的估计值,往往可以先通过变量置换,把非线性回归化为线性回归,再利用线性回归的方法确定参数a及b的估计值.问题·探究问题函数关系是一种确定性关系,而对一种非确定性关系——相关关系,我们如何研究?导思:由于相关关系不是一种确定性关系,我们经常运用统计分析的方法,即回归分析,按照画散点图,求回归方程,用回归方程预报等步骤进行.探究:我们可以知道,相关关系中,由部分观测值得到的回归直线,可以对两个变量间的线性相关关系进行估计,这实际上是将非确定性问题转化成确定性问题来研究.由于回归直线将部分观测值所反映的规律性进行了延伸,它在情况预报、资料补充等方面有着广泛的应用,从某种意义上看,函数关系是一种理想的关系模型,而相关关系是一种更为一般的情况.因此研究相关关系,不仅可使我们处理更为广泛的数学应用问题,还要使我们对函数关系的认识上升到一种新的高度.典题·热题思路解析:散点图是表示具有相关关系的两个变量的一组数据的图形.解:散点图如下:例2每立方米混凝土的水泥用量x(单位:kg)与28天后混凝土的抗压强度(单位:kg/cm2)之间的关系有如下数据:(2)如果y与x之间具有线性相关关系,求回归直线方程.思路解析:求回归直线方程和相关系数,可以用计算器来完成.在有的较专门的计算器中,可通过直接按键得出回归直线方程的系数和相关系数,而如果要用一般的科学计算器进行计算,则要先列出相应的表格,有了表格中的那些相关数据,回归方程中的系数和相关系数就都容易求出了.解:(1)r=)6.721294.64572)(20512518600(6.722051218294322⨯-⨯-⨯⨯-≈0.999>0.75.说明变量y 与x 之间具有显著的线性正相关关系.bˆ=143004347205125186006.72205121829432=⨯-⨯⨯-≈0.304, x b y aˆˆ-==72.6-0.304×205=10.28. 于是所求的线性回归方程为yˆ=0.304x+10.28. 深化升华 为了进行相关性检验,通常将有关数据列成表格,然后借助于计算器算出各个量,为求回归直线方程扫清障碍.若由资料知y 对x 有线性相关关系.试求:(1)线性回归方程yˆ=b ˆx+a ˆ的回归系数a ˆ,b ˆ. (2)使用年限为10年时,估计维修费用是多少?思路解析:因为y 对x 有线性相关关系,所以可以用一元线性相关的方法解决问题.利用公式bˆ=∑∑==--ni i ni ii x n x yx n yx 1221,aˆ=y -b ˆx 来计算回归系数.有时为了方便常列表对应写出x i y i ,x i 2,以利于求和.解:(1)x =4,y =5,∑=ni ix12=90,∑=ni ii yx 1=112.3,于是bˆ=245905453.112⨯-⨯⨯-=1.23,aˆ=y -b ˆx =5-1.23×4=0.08. (2)回归直线方程为yˆ=1.23x+0.08.当x=10年时,y ˆ=1.23×10+0.08=12.38(万元),即估计使用10年的维修费用是12.38万元.方法归纳 知道y 与x 呈线性相关关系,就无需进行相关性检验,否则,应首先进行相关性检验.如果本身两个变量不具有相关关系,或者说,它们之间相关关系不显著,即使求出了回归方程也是毫无意义的,而且估计和预测的量也是不可信的.例4一只红铃虫的产卵数y与x有关,现收集了7组观测数据列于表中,试建立y与x之间思路解析:首先要作出散点图,根据散点图判定y与x之间是否具有线性相关关系,若具有线性相关关系,再求线性回归方程.在散点图中,样本点并没有分布在某个带状区域内,因此两个变量不呈线性相关关系,所以不能直接利用线性回归方程来建立两个变量之间的关系.根据已有的函数知识,可以发现样本分布在某一指数函数曲线的周围.解:散点图如下所示:由散点图可以看出:这些点分布在某一条指数函数y=pe qx(p,q为待定的参数)的周围.现在,问题变为如何估计待定的参数p和q,我们可以通过对数变换把指数关系变为线性关系.令z=lny,则变换后样本点应该分布在直线z=bx+a(a=lnp,b=q)周围.这样就可以利用线性回归模型来建立y与x之间的非线性回归方程了.由下图可看出,变换后的样本点分布在一条直线的附近,因此可以用线性回归方程来拟合.经过计算得到线性回归方程为zˆ=0.272x-3.843.因此红铃虫的产卵数对温度的非线性回归方程为yˆ=e0.272x-3.843.方法归纳线性回归问题在解决前可以先画散点图,通过散点图判断是否为线性回归,如果不是线性回归,要先转换为线性回归问题.。
1.1回归分析的基本思想及其初步应用(2)
回归平方和 = 总偏差平方和
=1- 总偏差平方和
残差平方和
残差图 4、预报时要注意:书本7页
建立回归模型的基本步骤 1)确定解释变量和预报变量; 2)画出散点图; 3)确定回归方程类型; 4)求出回归方程; 5)利用相关指数或残差进行分析.
4 170 54
5 175 64
6 165 61
7 155 43
8 170 59
问题1:假设身高和随机误差不同都不会对体重产生任何影响, 在体重不受任何量影响的假设下,那么所有人的体重将相同。 设8名女大学生的体重都是她们体重的平均值,即为 54.5kg 编号
1 2 3 4 5 6 7 8 身高 165 165 157 170 175 165 155 170 体重 54.5 54.5 54.5 54.5 54.5 54.5 54.5 54.5
(1)画散点图,从图中发现身高与体重之间的关系; (2)求根据女大学生的身高预报她的体重的回归方程; (3)并预报一名身高为172cm的女大学生的体重; (4)计算相关系数r。
例1 从某大学中随机选出8名女大学生,其身高 和体重数据如下表:
编号 身高 体重 1 165 48
2 165 57
3 157 50
统计的基本思想
实际 抽 样
y = f(x)
样本
模 拟 回归分析
y = f(x)
回归分析步骤:
画散点图 回归方程 预报
例1 从某大学中随机选出8名女大学生,其身高 和体重数据如下表:
编号
身高 体重
1
165 48
2
165 57
3
157 50
4
170 54
5
175 64
3.1回归分析的基本思想及其初步应用(二)
n
★其中:(1)|r|≤1; (2)|r|越接近于1,相关程度越强, |r|越接近于0,相关程度越弱; (3) b 与 r 同号。
3
温故知新
3、线性回归模型:
y bx a e 2 E (e ) 0, D(e )
其中:e是随机误差,均值E(e)=0,方差D(e)=σ2>0 当随机误差e恒等于0时,线性回归模型就变成一 次函数模型。即:一次函数模型是线性回归模型的特
例2、一只红铃虫的产卵数y和温度x有关,现收集了7 组观测数据列于下表,试建立y与x之间的回归方程. 温度x/0C 产卵数y/个 21 7 23 11 25 21 27 24 29 66 32 35
115 325
解:收集数据作散点图:
350 300 250
产卵数
200 150 100 50 0 0 10 20 温度 30 40
(x X i
i 1
i 1
nn
2
i
)x X n
2 2
2
温故知新
2、我们通常用相关系数r来描述两个变量之间 线性相关关系的强弱。
r
x y n xy
i i i1 n 2 2 n 2 2 xi n x yi n y i1 i1
由条件R2分别为0.98和0.80
故指数函数模型的拟合效果比二次函数的模拟效果好.
15
习题3.1
A组 1、3
16
殊形式。
4、相关系数r与随机误差e一般有什么关系?
量
ˆ y y ˆ e
样本点: ( x1 , y1 ),( x2 , y2 ), ... ,( xn , yn )
北京市第四中学2016高考理科数学总复习例题讲解:统计案例 02回归分析的基本思想及其初步应用
回归分析的基本思想及其初步应用
北京四中 李伟
一、
知识讲解
研究两个变量的相关关系:
回归分析的基本步骤:
1. 画散点图
2. 求回归方程
3.
预报、决策
对于一组具有线性相关关系的数据()()()1
1
2
2
,,,,,,,n
n
x y x y x y ⋅⋅⋅ 回归方程为y bx a =+
其中,a b 的最小二乘法估计公式分别为:()()
()
1
1
2
2
2
1
1
ˆ=
n
n
i
i i i
i i n
n
i
i
i i x
x y y x y
nxy
b x
x x
nx
====---=
--∑∑∑∑
ˆˆa
y bx =-
二、
典型例题
例1 从某大学中随机选取8名女大学生,其身高和体重的数据如下: 编号
1 2
3
4
5
6
7
8
身高(
165 165 157 170 175 165 155 170
求根据女大学生的身高预报体重的回归方程,并预报一名身高为172cm
的女大学生的体重.
例2 某市居民1996~2003年货币收入x(单位:亿元)与购买商品支出
y(单位:亿元)的统计资料如下:
试对x与y的关系进行相关性检验,如x与y具有线性相关关系,求出
y对x的回归直线方程(结果保留3位小数)
例3。
一只红铃虫的产卵数y和温度x有关,先收集7组观察数据如下,建立y与x之间的回归方程。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
你能回忆一下建立回归模型的基本步骤吗?
一般地,建立回归模型的基本步骤为:
1确定研究对象,明确哪个变量是解释变量,哪个变
量是预报变量;
2画 出确 定好 的 解释 主变 量和 预 报变 量的散 点图,
观 察它 们之 间 的关 系如 是否 存在 线 性关 系等;
观察数据列于表1 3中,试建立y与x之间的回归方程.
表1 3 温度 /0 C 21 23 25 27 29 32 35 产卵数y / 个 7 11 21 24 66 115 325
产卵数
解: 根据收集的数 350
300
据作散点图
250
200
150
100
50
0
温度
20 22 24 26 28 30 32 34 36
例2 一只红铃虫的产卵数y和温度x有关.现收集了7组 观察数据列于表1 3中,试建立y与x之间的回归方程.
表1 3
温度 /0 C 21 23 25 27 29 32 35 产卵数y / 个 7 11 21 24 66 115 325
思考: 如何选择解释变量与预报变量???
例2 一只红铃虫的产卵数y和温度x有关.现收集了7组
图1.1 4
观察散点图,红铃虫 的产卵数y与温度x具 有线性关系吗?
除了线性关系外,我 们还学过哪些常见的 函数关系???
产卵数
350
300
250
200
150
100500温度20 22 24 26 28 30 32 34 36
图1.1 4
根据已有的函数知识, 可以发现样本点分布在某一条指数函数 曲线y c1ec2x的周围,其中c1和c2是待定参数.
eˆ 2 47.693 19.397 5.835 41003 40.107 58.268 77.965
表1 6给出了原始数据及相应的两个回归方程的残差.
从表中的数据可以看出模型2的残差的绝对值显然比 模型3的残差的绝对值小,因此模型2的拟合效果比模 型3的拟合效果好.
在一般情况下,比较两个模型的残差比较困难.原因是在 某些样本点上一个模型的残 差的绝对值比另一个模型 的小, 而另一些样本点的情况则相反.这时可以通过比较 两个模型的残差平方和的大小来判断模型的拟合效果. 残差平方和越小的模型, 拟合的效果越好.由表1 6容易
yˆ 1 e0.272x3.843
(2)
另一方面,可以认为图1.1 4中样本点集中在某二次曲线y c3 x2 c4的 附近,其中c3 和 c4 为待定参数.因此可以对温度变量做变换,即令t x2 , 然后建立y与t之间的线性回归方程, 从而得到y与x 之间的非线性回归 方程.
表1 5是红铃虫的产卵数和对 应的温度的平方 ,图1.1 6是相应的散点图 .
7
6
5
4
3
2
1
0
温度
20 22 24 26 28 30 32 34 36
图1.1 5
图1.1 5给出了表1 4中数据的散点图.从图1.1 5中可以看出,变换后的
样本点分布在一条直线的附近,因此可以用线性回归方程来拟合.
由表1 4中的数据得到线性回归方程zˆ 0.272x 3.843.
因此红铃虫的产卵数对温度的非线性回归方程为
3由经验 确定回归 方程类型(如我们 观察到数 据呈
线 性 关 系,则 选 用 线 性 回 归 方 程y bx a);
4按 一 定规 则 估 计回 归 方程 中 的参 数( 如 最 小二
乘 法);
5得 出 结 果 后 分 析 残 差 图是 否 有 异 常(个 别 数 据 对
应 残 差 过 大,或 残 差 呈 现 不 随 机 的 规律 性 等 等),若 存 在 异 常,则 检 查 数 据 是 否 有 误,或 模 型 是 否 合 适 等.
yˆ 2 0.367 t 202 .54, 即 y 关于 x 的二次回归方程为 yˆ 2 0.367 x2 202 .54(. 3)
表1 6
x 21
23 25
27
29
32 35
y7
11 21
24
66
115 325
eˆ 1 0.518 0.617 1.760 9.149 8.889 14.153 32.928
算出模型2和3的残差平方和分别为
Qˆ 1 1450.673, Qˆ 2 15448.432.
因此模型2的拟合效果远远优于模型3.
小结:我们知道红铃虫的产卵数与温度的 样本数据来自什么模型吗??
我们要找到两个变量的关系,要如何发现 他们之间的关系?如何比较不同模型的拟 合效果???
谢谢!!!
表1 5
t 441 529 625 729 841 1024 1225 y 7 11 21 24 66 115 325
350 300 250
产 200 卵 150 数 100
50 0
400 500 600 700 800 900 1000 1100 1200 1300
温度的平方
图1.1 6
从图1.1 6中可以看出, y与t 的散点图并不分布在一条直线的周围,因
现在,问题变为如何估计待定参数 c1和c2.我们可以通过对数变换把 指数关系变为线性关系. 令z ln y,则变换后样本点应该分布在直线 z bx a(a ln c1,b c2 )的周围.这样,就可以利用线性回归模型来建 立y和x之间的非线性回归方程了.
当回归方程不是形如 y bx a时,我们称之为非线性回归 方程.
由表1 3的数据可以得到变换后的样本数据表1 4
表1 4
x 21 23 25 27 29 32 35 z 1.946 2.398 3.045 3.178 4.190 4.745 5.784
作散点图如下
产卵数的对数
7
6
5
4
3
2
1
0
温度
20 22 24 26 28 30 32 34 36
图1.1 5
产卵数的对数
此不宜用线性回归方程来拟合它,即不宜用二次曲线y c3 x2 c4来 拟合y与x之间的关系.
这个结论还可以通过残差分析得到.下面介绍具体方法. 为比较两个不同模型的残差,需要建立两个相应的回归方程.前面 已经建立了y关于x的指数回归方程, 下面建立y关于x的二次回归 方程.用线性回归模型拟合表1 5中的数据,得到y关于t的线性 回归方程为