2017_2018学年高中数学第一章1.1回归分析的基本思想及其初步应用创新应用学案新人教A版选修1_2(含答案)
最新-2018高中数学 第1章18回归分析的基本思想及其初步应用课件 新选修1-2 精品
【解】 (1)散点图如图:
(2) x =15×(88+76+73+66+63)=73.2, y =15×(78+65+71+64+61)=67.8.
5
xiyi=88×78+76×65+73×71+66×64
i=1
+63×61=25054.
5
x2i =882+762+732+662+632=27174.
i=1
i=1
53.2,
5
yi-^yi2
i=1
R2=1-
≈0.994,
5
yi- y 2
i=1
所以回归模型的拟合效果很好.
【思维总结】 回归模型拟合效果的好坏可以通 过计算R2来判断,其值越大,说明模型的拟合效 果越好.
变式训练2 为研究重量x(单位:克)对弹簧长度 y(单位:厘米)的影响,对不同重量的6个物体进 行测量,数据如下表所示:
课堂互动讲练
考点突破
线性回归分析
解答线性回归题目的关键首先应通过散点图 来分析两变量间的关系是否相关,然后利用 求回归方程的公式求解回归方程.
例1 某班5名学生的数学和物理成绩如下表:
学科成绩
学生 A B C D E
数学成绩(x)
87766 86363
物理成绩(y)
76766 85141
(1)画出散点图; (2)求物理成绩y对数学成绩x的回归直线方程; (3)一名学生的数学成绩是96,试预测他的物理成 绩. 【思路点拨】 先画散点图,分析物理与数学成 绩是否有线性相关关系,若相关再利用线性回归 模型求解预报变量.
值在研究总体时,可以作为一个参考.
1.1 回归分析的基本思想及其初步 应用
学习目标 1.了解随机误差、残差、残差图的概念. 2.会通过分析残差判断线性回归模型的拟合 效果. 3.掌握建立回归模型的步骤. 4.通过对典型案例的探究,了解回归分析的 基本思想方法和初步应用.
回归分析的基本思想及其初步应用
回归分析的结果解读和评估
回归分析的结果应该经过详细的解读和评估。我们可以通过检验假设、计算回归系数的显著性、解释模 型的可解释性等来个领域都有广泛的应用,包括经济学、社会科学、医学、市场 营销等。它可以帮助我们理解变量之间的关系、预测未来的趋势,并支持决 策和策略制定。
回归分析的数据准备
在进行回归分析之前,需要准备好相关的数据。这包括收集和整理数据、处 理缺失值和异常值、选择合适的变量和转换方法等。良好的数据准备可以提 高回归分析的准确性和可靠性。
回归分析的基本思想及其 初步应用
回归分析是一种用来研究变量之间关系的统计方法。它的基本思想是通过建 立数学模型来描述变量之间的关系,并利用统计学方法来判断这种关系的显 著性和可靠性。
回归分析的定义与含义
回归分析是一种通过建立数学模型来描述两个或多个变量之间关系的统计学方法。它可以帮助我们理解 变量之间的因果关系,预测未来的变化趋势,并进行决策和策略制定。
回归分析的基本原理
回归分析的基本原理是通过最小化预测值与观察值之间的差异来确定最佳拟 合线。它使用最小二乘法来估计模型参数,并通过假设检验来评估模型的显 著性。
回归分析的常用模型
回归分析有多种常用模型,包括简单线性回归、多元线性回归、逻辑回归等。 每个模型都适用于不同的数据类型和研究问题,选择合适的模型可以提高分 析的准确性和可解释性。
回归分析的基本思想及其初步应用
回归分析的基本思想及其初步应用1.回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,回归分析的基本步骤是画出两个变量的散点图,求回归直线方程,并用回归直线方程进行预报. 2.线性回归模型(1)在线性回归直线方程y ^=a ^+b ^x 中,b ^=∑ni =1 (x i -x )(y i -y )∑ni =1(x i -x )2,a ^=y --b ^x -,其中x -=1n ∑ni =1x i ,y -=1n∑ni =1y i ,(x ,y )称为样本点的中心,回归直线过样本点的中心. (2)线性回归模型y =bx +a +e ,其中e 称为随机误差,自变量x 称为解释变量,因变量y 称为预报变量.[注意] (1)非确定性关系:线性回归模型y =bx +a +e 与确定性函数y =a +bx 相比,它表示y 与x 之间是统计相关关系(非确定性关系),其中的随机误差e 提供了选择模型的准则以及在模型合理的情况下探求最佳估计值a ,b 的工具.(2)线性回归方程y ^=b ^x +a ^中a ^,b ^的意义是:以a ^为基数,x 每增加1个单位,y 相应地平均增加b ^个单位.3.刻画回归效果的方式方式方法计算公式 刻画效果R 2R 2=1-∑ni =1(y i -y ^i )2∑n i =1(y i -y )2R 2越接近于1,表示回归的效果越好残差图e ^i 称为相应于点(x i ,y i )的残差,e ^i =y i -y ^i残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高残差平方和∑ni =1(y i -y ^i )2 残差平方和越小,模型的拟合效果越好判断正误(正确的打“√”,错误的打“×”) (1)求线性回归方程前可以不进行相关性检验.( )(2)在残差图中,纵坐标为残差,横坐标可以选为样本编号.( )(3)利用线性回归方程求出的值是准确值.( ) 答案:(1)× (2)√ (3)×变量x 与y 之间的回归方程表示( )A .x 与y 之间的函数关系B .x 与y 之间的不确定性关系C .x 与y 之间的真实关系形式D .x 与y 之间的真实关系达到最大限度的吻合 答案:D在两个变量y 与x 的回归模型中,分别选择了4个不同的模型,它们的相关指数R 2如下,其中拟合效果最好的模型是( )A .模型1的相关指数R 2为0.98 B .模型2的相关指数R 2为0.80 C .模型3的相关指数R 2为0.50 D .模型4的相关指数R 2为0.25 答案:A已知线性回归方程y ^=0.75x +0.7,则x =11时,y 的估计值为________. 答案:8.95探究点1 线性回归方程在某种产品表面进行腐蚀刻线试验,得到腐蚀深度y 与腐蚀时间x 之间的一组观察值如下表.x (s) 5 10 15 20 30 40 50 60 70 90 120 y (μm)610101316171923252946(1)画出散点图;(2)求y 对x 的线性回归方程;(3)利用线性回归方程预测时间为100 s 时腐蚀深度为多少. 【解】 (1)散点图如图所示.(2)从散点图中,我们可以看出y 对x 的样本点分布在一条直线附近,因而求回归直线方程有意义.x =111(5+10+15+ (120)=51011,y =111(6+10+10+…+46)=21411,a ^=y -b ^x ≈21411-0.304×51011= 5.36. 故腐蚀深度对腐蚀时间的线性回归方程为y =0.304x + 5.36.(3)根据(2)求得的线性回归方程,当腐蚀时间为100 s 时,y ^=5.36+0.304×100=35.76(μm),即腐蚀时间为100 s 时腐蚀深度大约为35.76 μm.求线性回归方程的三个步骤(1)画散点图:由样本点是否呈条状分布来判断两个量是否具有线性相关关系. (2)求回归系数:若存在线性相关关系,则求回归系数.(3)写方程:写出线性回归方程,并利用线性回归方程进行预测说明.炼钢是一个氧化降碳的过程,钢水含碳量的多少直接影响冶炼时间的长短,必须掌握钢水含碳量和冶炼时间的关系.如果已测得炉料熔化完毕时钢水的含碳量x 与冶炼时间y (从炼料熔化完毕到出钢的时间)的数据(x i ,y i )(i =1,2,…,10)并已计算出=1589,i =110y i =1 720,故冶炼时间y 对钢水的含碳量x 的回归直线方程为y ^=1.267x -30.47. 探究点2 线性回归分析假定小麦基本苗数x 与成熟期有效穗y 之间存在相关关系,今测得5组数据如下:(1)以x 为解释变量,y 为预报变量,作出散点图;(2)求y 与x 之间的回归方程,对于基本苗数56.7预报有效穗; (3)计算各组残差,并计算残差平方和;(4)求相关指数R 2,并说明残差变量对有效穗的影响占百分之几? 【解】 (1)散点图如下.(2)由图看出,样本点呈条状分布,有比较好的线性相关关系,因此可以用回归方程刻画它们之间的关系.设回归方程为y ^=b ^x +a ^,x -=30.36,y -=43.5,(1)该类题属于线性回归问题,解答本题应先通过散点图来分析两变量间的关系是否线性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图或相关指数R 2来分析函数模x 15.0 25.8 30.0 36.6 44.4 y39.442.942.943.149.2型的拟合效果,在此基础上,借助回归方程对实际问题进行分析. (2)刻画回归效果的三种方法①残差图法:残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适; ②残差平方和法:残差平方和 i =1n(y i -y ^i )2越小,模型的拟合效果越好;关于x 与y 有如下数据:x 2 4 5 6 8 y3040605070由(2)可得y i -y ^i 与y i -y -的关系如下表:y i -y ^i -1 -5 8 -9 -3 y i -y --20-101020由于R 21=0.845,R 22=0.82,0.845>0.82, 所以R 21>R 22.所以(1)的拟合效果好于(2)的拟合效果. 探究点3 非线性回归分析某地今年上半年患某种传染病的人数y (人)与月份x (月)之间满足函数关系,模型为y =a e bx ,确定这个函数解析式.月份x /月 1 2 3 4 5 6 人数y /人526168747883【解】 设u =ln y ,c =ln a , 得u ^=c ^+b ^x ,则u 与x 的数据关系如下表:x12 3 4 56u =ln y 3.95 4.114.224.3044.356 7 4.418 8非线性回归方程的步骤(1)确定变量,作出散点图.(2)根据散点图,选择恰当的拟合函数.(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程. (4)分析拟合效果:通过计算相关指数或画残差图来判断拟合效果. (5)根据相应的变换,写出非线性回归方程.某种书每册的成本费y (元)与印刷册数x (千册)有关,经统计得到数据如下:x(千册)1 2 3 5 10 20 30 50 100 200 y (元)10.155.524.082.852.111.621.411.301.211.15检验每册书的成本费y (元)与印刷册数的倒数1x之间是否具有线性相关关系,如有,求出y 对x 的回归方程,并画出其图形.解:首先作变量置换u =1x,题目中所给的数据变成如下表所示的10对数据.u i 1 0.5 0.33 0.2 0.1 0.05 0.03 0.02 0.01 0.005 y i10.155.524.082.852.111.621.411.301.211.15然后作相关性检测.经计算得r ≈0.999 8>0.75,从而认为u 与y 之间具有线性相关关系,由公式得a ^≈1.125,b ^≈8.973,所以y ^=1.125+8.973u ,最后回代u =1x ,可得y ^=1.125+8.973x.这就是题目要求的y 对x 的回归方程.回归方程的图形如图所示,它是经过平移的反比例函数图象的一个分支.1.关于回归分析,下列说法错误的是( ) A .回归分析是研究两个具有相关关系的变量的方法 B .散点图中,解释变量在x 轴,预报变量在y 轴C .回归模型中一定存在随机误差D .散点图能明确反映变量间的关系解析:选D.用散点图反映两个变量间的关系时,存在误差. 2.下列关于统计的说法:①将一组数据中的每个数据都加上或减去同一个常数,方差恒不变; ②回归方程y ^=b ^x +a ^必经过点(x ,y ); ③线性回归模型中,随机误差e =y i -y ^i ;④设回归方程为y ^=-5x +3,若变量x 增加1个单位,则y 平均增加5个单位. 其中正确的为________(写出全部正确说法的序号).解析:①正确;②正确;③线性回归模型中,随机误差的估计值应为e ^i =y i -y ^i ,故错误;④若变量x 增加1个单位,则y 平均减少5个单位,故错误. 答案:①②3.某商场经营一批进价是30元/台的小商品,在市场试销中发现,此商品的销售单价x (x 取整数)(元)与日销售量y (台)之间有如下关系:x 35 40 45 50 y56412811(1)画出散点图,并判断y 与x 是否具有线性相关关系;(2)求日销售量y 对销售单价x 的线性回归方程(方程的斜率保留一个有效数字); (3)设经营此商品的日销售利润为P 元,根据(2)写出P 关于x 的函数关系式,并预测当销售单价x 为多少元时,才能获得最大日销售利润.解:(1)散点图如图所示,从图中可以看出这些点大致分布在一条直线附近,因此两个变量具有线性相关关系.(2)因为x -=14×(35+40+45+50)=42.5,(3)依题意有P =(161.5-3x )(x -30) =-3x 2+251.5x -4 845=-3⎝⎛⎭⎪⎫x -251.562+251.5212-4 845. 所以当x =251.56≈42时,P 有最大值,约为426元.故预测当销售单价为42元时,能获得最大日销售利润.知识结构深化拓展线性回归模型的模拟效果(1)残差图法:观察残差图,如果残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.(2)残差的平方和法:一般情况下,比较两个模型的残差比较困难(某些样本点上一个模型的残差的绝对值比另一个模型的小,而另一些样本点的情况则相反),故通过比较两个模型的残差的平方和的大小来判断模型的拟合效果.残差平方和越小的模型,拟合的效果越好.(3)R 2法:R 2的值越大,说明残差平方和越小,也就是说模型拟合的效果越好.[注意] r 的绝对值越大说明变量间的相关性越强,通常认为r 的绝对值大于等于0.75时就是有较强的相关性,同样R 2也是如此,R 2越大拟合效果越好.[A 基础达标]1.废品率x %和每吨生铁成本y (元)之间的回归直线方程为y ^=256+3x ,表明( ) A .废品率每增加1%,生铁成本增加259元 B .废品率每增加1%,生铁成本增加3元 C .废品率每增加1%,生铁成本平均每吨增加3元 D .废品率不变,生铁成本为256元解析:选C.回归方程的系数b ^表示x 每增加一个单位,y ^平均增加b ^,当x 为1时,废品率应为1%,故当废品率增加1%时,生铁成本平均每吨增加3元.2.已知某产品连续4个月的广告费用为x i (i =1,2,3,4)千元,销售额为y i (i =1,2,3,4)万元,经过对这些数据的处理,得到如下数据信息:①x 1+x 2+x 3+x 4=18,y 1+y 2+y 3+y 4=14;②广告费用x 和销售额y 之间具有较强的线性相关关系;③回归直线方程y ^=b ^x +a ^中,b ^=0.8(用最小二乘法求得),那么当广告费用为6千元时,可预测销售额约为( )A .3.5万元B .4.7万元C .4.9万元D .6.5万元解析:选B.依题意得x =4.5,y =3.5,由回归直线必过样本点中心得a ^=3.5-0.8×4.5=-0.1,所以回归直线方程为y ^=0.8x -0.1.当x =6时,y ^=0.8×6-0.1=4.7.3.某化工厂为预测某产品的回收率y ,需要研究它和原料有效成分含量之间的相关关系,现取了8对观测值,计算得的线性回归方程是( )A.y ^=11.47+2.62xB.y ^=-11.47+2.62x C.y ^=2.62+11.47x D.y ^=11.47-2.62x 解析:选A.由题中数据得x =6.5,y =28.5,a ^=y -b ^x =28.5-2.62×6.5=11.47,所以y 与x 的线性回归方程是y ^=2.62x +11.47.故选A.4.若某地财政收入x 与支出y 满足线性回归方程y =bx +a +e (单位:亿元),其中b =0.8,a =2,|e |≤0.5.如果今年该地区财政收入10亿元,则年支出预计不会超过( )A .10亿元B .9亿元C .10.5亿元D .9.5 亿元解析:选C.代入数据y =10+e ,因为|e |≤0.5, 所以9.5≤y ≤10.5,故不会超过10.5亿元.5.某种产品的广告费支出x 与销售额y (单位:万元)之间的关系如下表:y 与x 的线性回归方程为y =6.5x +17.5,当广告支出5万元时,随机误差的效应(残差)为________.解析:因为y 与x 的线性回归方程为y ^=6.5x +17.5,当x =5时,y ^=50,当广告支出5万元时,由表格得:y =60,故随机误差的效应(残差)为60-50=10. 答案:106.若一组观测值(x 1,y 1),(x 2,y 2),…,(x n ,y n )之间满足y i =bx i +a +e i (i =1,2,…,n ),且e i 恒为0,则R 2为________.解析:由e i 恒为0,知y i =y ^i ,即y i -y ^i =0, 故R 2=1-∑ni =1 (y i -y ^i )2∑n i =1 (y i -y )2=1-0=1.答案:17.某个服装店经营某种服装,在某周内获纯利y (元)与该周每天销售这种服装件数x 之间的一组数据关系见表:已知∑7i =1x 2i =280,∑7i =1x i y i =3 487. (1)求x ,y ;(2)已知纯利y 与每天销售件数x 线性相关,试求出其回归方程. 解:(1)x =3+4+5+6+7+8+97=6,y =66+69+73+81+89+90+917=5597.(2)因为y 与x 有线性相关关系,所以b ^=∑7i =1x i y i-7x y ∑7i =1x 2i -7x 2=3 487-7×6×5597280-7×36=4.75,a ^=5597-6×4.75=71914≈51.36.故回归方程为y ^=4.75 x +51.36.8.已知某校5个学生的数学和物理成绩如下表:(1)假设在对这5名学生成绩进行统计时,把这5名学生的物理成绩搞乱了,数学成绩没出现问题,问:恰有2名学生的物理成绩是自己的实际分数的概率是多少?(2)通过大量事实证明发现,一个学生的数学成绩和物理成绩具有很强的线性相关关系,在上述表格是正确的前提下,用x 表示数学成绩,用y 表示物理成绩,求y 与x 的回归方程; (3)利用残差分析回归方程的拟合效果,若残差和在(-0.1,0.1)范围内,则称回归方程为“优拟方程”,问:该回归方程是否为“优拟方程”?参考数据和公式:y ^=b ^x +a ^,其中.解:(1)记事件A 为“恰有2名学生的物理成绩是自己的实际成绩”, 则P (A )=2C 25A 55=16.(2)因为x =80+75+70+65+605=70,y =70+66+68+64+625=66,学生的编号i 1 2 3 4 5 数学x i 80 75 70 65 60 物理y i7066686462[B 能力提升]9.假设关于某设备的使用年限x和所支出的维修费用y(万元)有如表的统计资料:使用年限x 2 3 4 5 6 维修费用y 2.2 3.8 5.5 6.5 7.010.(选做题)某地区不同身高的未成年男性的体重平均值如表所示:身高x(cm)60708090100110体重y(kg) 6.137.909.9912.1515.0217.50身高x(cm)120130140150160170体重y(kg)20.9226.8631.1138.8547.2555.05 (1)(2)如果体重超过相同身高男性体重平均值的1.2倍为偏胖,低于0.8倍为偏瘦,那么这个地区一名身高175 cm 、体重82 kg 的在校男生体重是否正常? 解:(1)根据题表中的数据画出散点图如图所示.由图可看出,样本点分布在某条指数函数曲线y =c 1e c 2x的周围, 于是令z =ln y ,得下表:x 60 70 80 90 100 110 z 1.81 2.07 2.30 2.50 2.71 2.86 x 120 130 140 150 160 170 z3.043.293.443.663.864.01作出散点图如图所示:由表中数据可得z 与x 之间的回归直线方程为 z ^=0.662 5+0.020x ,则有y ^=e 0.662 5+0.020x .(2)当x =175时,预报平均体重为y ^=e 0.662 5+0.020×175≈64.23, 因为64.23×1.2≈77.08<82,所以这个男生偏胖.。
回归分析的基本思想及初步应用
回归分析的基本思想及初步应用回归分析是一种用于研究变量之间关系的统计方法。
其基本思想是通过建立一个数学模型来描述自变量(独立变量)和因变量(依赖变量)之间的关系,并根据已有数据对模型进行拟合和估计,以了解两个变量之间的关系程度。
回归分析最早是由英国统计学家弗朗西斯·高尔顿在19世纪中叶提出的。
他注意到,人口增长与时间之间似乎存在其中一种关系,于是使用统计方法将时间作为自变量,人口数量作为因变量,建立了一个数学模型。
这个数学模型称为“回归方程”,后来成为了回归分析的基础。
在建模阶段,我们首先要确定自变量和因变量,并根据问题目标和已有数据选取适当的变量。
然后,我们需要选择一个适当的回归模型来描述自变量和因变量之间的关系。
常见的回归模型包括线性回归模型、多项式回归模型、指数回归模型等。
模型的选择通常基于对自变量和因变量之间关系的推测和理论的支持。
同时,还需要根据数据特点和拟合效果选择回归模型的阶数和形式。
在推断阶段,我们需要对模型进行估计和检验。
首先,我们使用已有数据对回归模型进行拟合,根据最小二乘法估计出回归系数的值,并计算出模型预测的因变量值。
然后,通过各种统计方法对模型的拟合程度进行评估。
常用的评估指标有残差分析、R平方和调整R平方等。
此外,还可以进行t检验和F检验来检验回归系数和模型整体的显著性。
这些检验能够帮助我们判断回归模型是否能够很好地描述自变量和因变量之间的关系,并对未来值进行预测和推断。
回归分析的应用非常广泛。
它在社会科学、经济学、医学、生态学等领域都有着重要的应用。
在经济学中,回归分析可以用于预测和解释宏观经济变量之间的关系,如GDP与就业率之间的关系。
在医学中,回归分析可以用于研究因素对疾病发生的影响,如吸烟与肺癌之间的关系。
此外,回归分析还可以用于分析市场需求、产品定价、销售预测等问题,为决策提供科学依据。
总而言之,回归分析是一种用于研究变量关系的重要统计方法。
通过建立数学模型,估计和检验回归系数,可以帮助我们了解变量之间的关系程度,并利用这种关系进行预测和推断。
2017_2018学年高中数学第一章统计案例1.1回归分析的基本思想及其初步应用学案含解析新人教A版
1.1 回归分析的基本思想及其初步应用线性回归模型[提出问题]问题 1:由《数学必修 3》的知识可知,相关关系中自变量和因变量的关系是确定的吗? 提示:不是.问题 2:利用线性回归方程求出的函数值一定是真实值吗? 提示:不一定. [导入新知] 1.回归分析(1)函数关系是一种确定性关系,而相关关系是一种非确定性关系,即自变量取值一定时, 因变量的取值带有一定的随机性的两个变量之间的关系叫做相关关系.(2)由《数学必修 3》的知识可知,回归分析是对具有线性相关关系的两个变量进行统计 分析的一种常用方法,回归分析的基本步骤是画出两个变量的散点图,求回归直线方程,并用 回归直线方程进行预报.2.线性回归模型(1)线性回归模型 y =bx +a +e ,其中 a 和b 是模型的未知参数,e 称为随机误差.自变量x 称为解释变量,因变量 y 称为预报变量.^ ^ ^(2)在回归方程 y = bx + a 中,^b----nn∑i=1x i - x y i - y∑i =1x i y i -n x y==,--nn∑i=1x i - x2∑i =1x 2i -n x 2^ a - ^-= y - b x .nn- 1 - 1 - -∑∑其中 x =x i , y = y i, (x , y )称为样本点的中心. n ni =1i =1[化解疑难]对线性回归方程的理解^ ^ ^ - - - -(1)回归直线方程 y = bx + a 一定经过点(x , y ).我们把(x , y )称为样本点的中心, 因此,回归直线必过样本点的中心.^ ^ ^ ^ ^(2)线性回归方程 y = bx + a 中的截距 a 和斜率 b 都是通过估计而得来的,存在着误差,这种误差可能导致预测结果的偏差.1^ ^(3)当b>0时,变量y与x具有正的线性相关关系;当b<0时,变量y与x具有负的线性相关关系.线性回归分析[提出问题]问题1:利用什么方法判断所建立的线性模型的拟合效果?提示:利用残差.问题2:由散点图知,残差有正、负,如何更好地判断拟合效果?n^∑提示:利用残差平方和,即(y i-y i)2越小,R2越大,拟合效果越好.i=1[导入新知]1.残差分析(1)残差^ ^ ^ ^ ^ 样本点(x n,y n)的随机误差e i=y i-bx i-a,其估计值为e i=y i-y i=y i-b x i-a,e i称为相应于点(x i,y i)的残差(residual).(以上i=1,2,…,n)(2)残差图作图时,纵坐标为残差,横坐标可以选为样本编号,或x i数据,或y i数据,这样作出的图形称为残差图.(3)残差分析残差分析即通过残差发现原始数据中的可疑数据,判断所建立模型的拟合效果,其步骤为:计算残差——画残差图——在残差图中分析残差特性.残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.2.相关指数我们可以用相关指数R2来刻画回归的效果,其计算公式是:^i2n∑i=1y i-yR2=1-.-n∑i=1y i-y2n n^∑∑R2越大,残差平方和(y i-y i)2越小,即模型的拟合效果越好;R2越小,残差平方和i=1 i=1 ^(y i-y i)2越大,即模型的拟合效果越差.在线性回归模型中,R2的取值范围为[0,1],R2表示解释变量对于预报变量变化的贡献率,1-R2表示随机误差对于预报变量变化的贡献率.R2越接近于1,表示回归的效果越好.2[化解疑难]残差分析的注意点在残差图中,可疑数据的特征表现为:(1)个别样本点的残差过大,即大多数的残差点比较均匀地落在水平的带状区域中,而个别残差点偏离该区域过于明显,需要确认在采集这些样本点的过程中是否有人为的错误.如果采集数据有错误,那么需要纠正,然后重新利用线性回归模型拟合数据;如果数据采集没有错误,那么需要寻找其他原因.(2)残差图有异常,即残差呈现不随机的规律性,此时需要考虑所采用的线性回归模型是否合适.线性回归分析[例1]某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据:x 6 8 10 12y 2 3 5 6(1)请画出上表数据的散点图(要求:点要描粗);^ ^ ^(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y=bx+a;(3)试根据求出的线性回归方程,预测记忆力为14的同学的判断力.[解](1)散点图如图所示:-6+8+10+12 -2+3+5+6(2)x==9,y==4,4 44-∑(x i-)2=9+1+1+9=20,xi=14--∑(x i-x)(y i-y)=(-3)×(-2)+(-1)×(-1)+1×1+3×2=14,i=13^ b--4∑i=1x i-xy i-y14===0.7,-204∑i=1x i-x2^ a-^-=y-b x=4-0.7×9=-2.3,^故线性回归方程为y=0.7x-2.3.(3)由(2)中线性回归方程知,当x=14时,^y =0.7×14-2.3=7.5,预测记忆力为14的同学的判断力约为7.5.[类题通法]求线性回归方程的步骤(1)列表表示x i,y i;n n-----∑∑(2)计算x,,(x i-)(y i-),(x i-)2;y x y xi=1 i=1^ ^(3)代入公式计算a,b的值;(4)写出回归直线方程.[活学活用]某公司利润y(单位:千万元)与销售总额x(单位:千万元)之间有如下对应数据:x 10 15 17 20 25 28 32y 1 1.3 1.8 2 2.6 2.7 3.3(1)画出散点图;(2)求回归直线方程;(3)估计销售总额为24千万元时的利润.解:(1)散点图如图:(2)列下表,并利用科学计算器进行有关计算.i 1 2 3 4 5 6 7x i 10 15 17 20 25 28 32y i 1 1.3 1.8 2 2.6 2.7 3.34x=21,y=2.17 7∑∑x2i=3 447,x i y i=346.3i=1 i=1^ 346.3-7 × 21 × 2.1于是b=≈0.104.3 447-7 × 212^a =2.1-0.104×21=-0.084,^因此回归直线方程为y=0.104x-0.084.(3)当x=24时,y=0.104×24-0.084=2.412(千万元).残差分析[例2]某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,测得的数据如下:编号 1 2 3 4 5 6 7 8 9 10 零件数x/个10 20 30 40 50 60 70 80 90 100 加工时间y/分62 68 75 81 89 95 102 108 115 122(1)建立零件数为解释变量,加工时间为预报变量的回归模型,并计算残差;(2)你认为这个模型能较好地刻画零件数和加工时间的关系吗?[解](1)根据表中数据画出散点图,如图所示.由图可看出,这些点在一条直线附近,可以用线性回归模型来拟合数据.计算得加工时间^对零件数的线性回归方程为y=0.668x+54.93.残差数据如下表:编号 1 2 3 4 5^残差e 0.39 -0.29 0.03 -0.65 0.67编号 6 7 8 9 105^残差e -0.01 0.31 -0.37 -0.05 0.27(2)以零件数为横坐标,残差为纵坐标画出残差图如图所示.由图可知,残差点分布较均匀,即用上述回归模型拟合数据效果很好.但需注意,由残差图可以看出,第4个样本点和第5个样本点的残差比较大,需要确认在采集这两个样本点的过程中是否有人为的错误.[类题通法]残差分析应注意的问题利用残差分析研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,^ ^是否可以用线性回归模型来拟合数据.然后通过图形来分析残差特性,用残差e1,e2,…,^e n来判断原始数据中是否存在可疑数据,用R2来刻画模型拟合的效果.[活学活用]已知某种商品的价格x(元)与需求量y(件)之间的关系有如下几组数据:x 14 16 18 20 22y 12 10 7 5 3求y关于x的回归直线方程,并说明回归模型拟合效果的好坏.- 1解:x=×(14+16+18+20+22)=18,5- 1y=×(12+10+7+5+3)=7.4,55∑x2i=142+162+182+202+222=1 660,i=15∑x i y i=14×12+16×10+18×7+20×5+22×3=620,i=1--5∑i=1x i y i-5xy^所以b=-5∑i=1x2i-5x26620-5 × 18 × 7.4==-1.15,1 660-5 × 182^a =7.4+1.15×18=28.1,所以所求回归直线方程是^y =-1.15x+28.1.列出残差表:0 0.3 -0.4 -0.1 0.2^y i-y i-4.6 2.6 -0.4 -2.4 -4.4y i-y5^∑所以(y i-i)2=0.3,yi=15-∑(y i-)2=53.2,yi=1^i25∑i=1y i-yR2=1-≈0.994,-5∑i=1y i-y2所以回归模型的拟合效果很好.非线性回归分析[例3]在一次抽样调查中测得样本的5个样本点,数值如下表:x 0.25 0.5 1 2 4y 16 12 5 2 1试建立y与x之间的回归方程.[解]作出变量y与x之间的散点图如图所示.由图可知变量y与x近似地呈反比例函数关系.k 1设y=,令t=,则y=kt.x x7由 y 与 x 的数据表可得 y 与 t 的数据表:t 4 2 1 0.5 0.25 y1612521作出 y 与 t 的散点图如图所示.由图可知 y 与 t 近似地呈线性相关关系.55- -∑∑又 t =1.55, =7.2,i y i =94.25,t 2i =21.312 5, yti =1i =1^b=--5∑i =1t i y i -5t y-5∑i =1t 2i -5t 294.25-5 × 1.55 × 7.2= ≈4.134 4, 21.312 5-5 × 1.552^ a - ^-= y - b t =7.2-4.134 4×1.55≈0.8, ^∴ y =4.134 4t +0.8.^ 4.134 4所以 y 与 x 之间的回归方程是 y = +0.8.x[类题通法]非线性回归分析的步骤非线性回归问题有时并不给出经验公式.这时我们可以画出已知数据的散点图,把它与学 过的各种函数(幂函数、指数函数、对数函数等)图象作比较,挑选一种跟这些散点拟合得最好 的函数,然后采用适当的变量变换,把问题化为线性回归分析问题,使之得到解决.其一般步 骤为:8[活学活用]为了研究某种细菌随时间x变化繁殖个数y的变化,收集数据如下时间x/天 1 2 3 4 5 6繁殖个数y 6 12 25 49 95 190(1)用时间作解释变量,繁殖个数作预报变量作出这些数据的散点图;(2)求y与x之间的回归方程.解:(1)散点图如图所示:(2)由散点图看出样本点分布在一条指数函数y1=c1e c2x(c1>0)的周围,则ln y=ln c1+c2x,于是令z=ln y,则x 1 2 3 4 5 6z 1.79 2.48 3.22 3.89 4.55 5.25画出相应的散点图(图略),可知变换后的样本点分布在一条直线附近,因此可用线性回归^ ^方程来拟合,由表中数据得到线性回归方程为z=0.69x+1.115,则有y=e0.69x+1.115.1.错误理解残差的概念而致误[典例]某种产品的广告费支出x(单元:万元)与销售额y(单位:万元)之间有下表关系:x 2 4 5 6 8y 30 40 60 50 70^y与x的线性回归方程为y=6.5x+17.5,当广告费支出5万元时,随机误差的效应(残差)为()A.10B.209C.30 D.40^ ^ [解析]因为y与x的线性回归方程为y=6.5x+17.5,当x=5时,y=50,当广告费支出5万元时,由表格得y=60,故随机误差的效应(残差)为60-50=10.[答案] A[易错防范]^ ^ ^ ^ ^1.对残差e i不理解,误认为e i=y i-y i=b x i-a-y i,i=1,2,…,n.2.残差平方和越小,说明模型的拟合效果就越好.[成功破障]^已知方程y=0.85x-82.71是根据女大学生的身高预报她的体重的回归方程,其中x的^单位是cm,y的单位是kg,那么针对某个体(160,53)的残差是________.^ ^解析:把x=160代入y=0.85x-82.71,得y=0.85×160-82.71=53.29,所以残差^ e^=y-y=53-53.29=-0.29.答案:-0.29[随堂即时演练]1.(湖北高考)四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:^①y与x负相关且y=2.347x-6.423;^②y与x负相关且y=-3.476x+5.648;^③y与x正相关且y=5.437x+8.493;^④y与x正相关且y=-4.326x-4.578.其中一定不正确的结论的序号是()A.①②B.②③C.③④D.①④解析:选D①中y与x负相关而斜率为正,不正确;④中y与x正相关而斜率为负,不正确.2.关于回归分析,下列说法错误的是()A.在回归分析中,变量间的关系若是非确定性关系,那么因变量不能由自变量唯一确定10B.线性相关系数可以是正的也可以是负的C.在回归分析中,如果r2=1或r=±1,说明x与y之间完全线性相关D.样本相关系数r∈(-1,1)解析:选D样本的相关系数应满足-1≤r≤1.3.在研究气温和热茶销售杯数的关系时,若求得相关指数R2≈0.85,则表明气温解释了________的热茶销售杯数变化,而随机误差贡献了剩余的________,所以气温对热茶销售杯数的效应比随机误差的效应大得多.解析:由相关指数R2的意义可知,R2≈0.85表明气温解释了85%,而随机误差贡献了剩余的15%.答案:85%15%4.某医院用光电比色计检验尿汞时,得尿汞含量(mg/L)与消光系数计数的结果如下:尿汞含量x 2 4 6 8 10消光系数y 64 138 205 285 360若y与x具有线性相关关系,则回归直线方程是______________________________.5--∑解析:由已知表格中的数据,利用科学计算器进行计算得x=6,y=210.4,x2i=i=1 220,5∑x i y i=7 790,i=1--5∑i=1x i y i-5x y^所以b==36.95,-5∑i=1x2i-5x2^ a-^-=y-b x=-11.3.^所以回归直线方程为y=-11.3+36.95x.^答案:y=-11.3+36.95x5.某工厂为了对新研究的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价x/元8 8.2 8.4 8.6 8.8 9销量y/件90 84 83 80 75 68^ ^ ^ ^ ^ -^-(1)求回归直线方程y=bx+a,其中b=-20,a=y-b x;11(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)- 1解:(1)x=×(8+8.2+8.4+8.6+8.8+9)=8.5,6- 1y=×(90+84+83+80+75+68)=80,6^ --从而a=y+20x=80+20×8.5=250,^故y=-20x+250.(2)由题意知,工厂获得利润z=(x-4)y=-20x2+330x-1 00033(x-4)2+361.25,=-2033所以当x==8.25时,4z max=361.25(元).即当该产品的单价定为8.25元时,工厂获得最大利润.[课时达标检测]一、选择题--1.(重庆高考)已知变量x与y正相关,且由观测数据算得样本平均数x=3,y=3.5,则由该观测数据算得的线性回归方程可能为()^ ^A.y=0.4x+2.3B.y=2x-2.4^ ^C.y=-2x+9.5D.y=-0.3x+4.4解析:选A依题意知,相应的回归直线的斜率应为正,排除C、D.且直线必过点(3,3.5),代入A、B得A正确.2.甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R2分别如下表:甲乙丙丁R2 0.98 0.78 0.50 0.85建立的回归模型拟合效果最好的同学是()A.甲B.乙C.丙D.丁解析:选A相关指数R2越大,表示回归模型拟合效果越好.123.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系.根据一组样^本数据(x i,y i)(i=1,2,…,n),用最小二乘法建立的回归方程为y=0.85x-85.71.则下列结论中不正确的是()A.y与x具有正的线性相关关系--B.回归直线过样本点的中心(x,y)C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kgD.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg解析:选D回归方程中x的系数为0.85>0,因此y与x具有正的线性相关关系,A正确;--由回归方程系数的意义可知回归直线过样本点的中心(x,y),B正确;^ ^依据回归方程中b的含义可知,x每变化1个单位,y相应变化约0.85个单位,C正确;用回归方程对总体进行估计不能得到肯定结论,故D不正确.4.甲、乙、丙、丁4位同学各自对A,B两变量做回归分析,分别得到散点图与残差平方n^∑和(y i-i)2,如下表:yi=1甲乙丙丁散点图残差平方和115 106 124 103哪位同学的试验结果体现拟合A,B两变量关系的模型拟合精度高?()A.甲B.乙C.丙D.丁解析:选D从题中的散点图上来看,丁同学的散点图中的点更加近似在一条直线附近;从残差平方和来看,丁同学的最小,说明拟合精度最高.5.(福建高考)已知x与y之间的几组数据如下表:x 1 2 3 4 5 6y 0 2 1 3 3 4^ ^ ^假设根据上表数据所得线性回归直线方程为y=bx+a,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y=b′x+a′,则以下结论正确的是()^ ^ ^ ^A.b>b′,a>a′B.b>b′,a<a′13^ ^ ^ ^C.b<b′,a>a′D.b<b′,a<a′解析:选C由两组数据(1,0)和(2,2)可求得直线方程为y=2x-2,b′=2,a′=-2. 而利用线性回归方程的公式与已知表格中的数据,-6∑i=1x i y i-6x^可求得b=-6∑i=1x2i-6x2 -y7 1358-6 ××2 6 5==,7 7 91-6 ×(2 )2^ a-^-13 5 7 1 =y-b x=-×=-,6 7 2 3^ ^所以b<b′,a>a′.二、填空题6.在一组样本数据(x1,y1),(x2,y2),…,(x n,y n)(n≥2,x1,x2,…,x n不全相等)1 的散点图中,若所有样本点(x i,y i)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据2的样本相关系数为_________.解析:根据样本相关系数的定义可知,当所有样本点都在直线上时,相关系数为1.答案:17.某咖啡厅为了了解热饮的销售量y(个)与气温x(℃)之间的关系,随机统计了某4天的销售量与气温,并制作了对照表:气温(℃)18 13 10 -1销售量(个) 24 34 38 64^由表中数据,得线性回归方程y=-2x+a.当气温为-4 ℃时,预测销售量约为________.1 1解析:∵x=(18+13+10-1)=10,y=(24+34+38+64)=40,∴40=-2×10+a,∴a4 4=60,当x=-4时,y=-2×(-4)+60=68.答案:688.关于x与y有如下数据:x 2 4 5 6 8y 30 40 60 50 7014^ ^为了对 x ,y 两个变量进行统计分析,现有以下两种线性模型:甲: y =6.5x +17.5, 乙:y =7x +17,则____________(填“甲”或“乙”)模型拟合的效果更好.解析:设甲模型的相关指数为 R 21,^5∑i=1y i - y i2155则 R 21=1-=1- =0.845;-1 0005∑i=1y i - y 2设乙模型的相关指数为 R 2, 180 则 R 2=1- =0.82. 1 000 因为 0.845>0.82,即 R 21>R 2, 所以甲模型拟合效果更好. 答案:甲 三、解答题9.(新课标全国卷Ⅱ)某地区 2007年至 2013年农村居民家庭人均纯收入 y (单位:千元) 的数据如下表:年份 2007 2008 2009 2010 2011 2012 2013 年份代号 t 1 2 3 4 5 6 7 人均纯收入 y2.93.33.64.44.85.25.9(1)求 y 关于 t 的线性回归方程;(2)利用(1)中的回归方程,分析 2007年至 2013年该地区农村居民家庭人均纯收入的变化 情况,并预测该地区 2015年农村居民家庭人均纯收入.--n∑i=1t i - ty i - y^附:回归直线的斜率和截距的最小二乘估计公式分别为 b =,-n∑i=1t i - t 2^ a - ^- = y - b t .解:(1)由所给数据计算得- 1t = ×(1+2+3+4+5+6+7)=4,7- 1y = ×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,77-∑(t i - t )2=9+4+1+0+1+4+9=28,i =1 7- -∑(t i-t)(y i-y)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+i=1151×0.5+2×0.9+3×1.6=14,^b--7∑i=1t i-ty i-y14===0.5,-287∑i=1t i-t 2^a-^-=y-b t=4.3-0.5×4=2.3,^所求回归方程为y=0.5t+2.3.^(2)由(1)知,b=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.^将2015年的年份代号t=9代入(1)中的回归方程,得y=0.5×9+2.3=6.8,故预测该地区2015年农村居民家庭人均纯收入为6.8千元.10.(全国丙卷)下图是我国2008 年至2014 年生活垃圾无害化处理量(单位:亿吨)的折线图.(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.7 7 7∑∑∑参考数据:y i=9.32,i y i=40.17, y i-y2=0.55,7≈2.646.ti=1 i=1 i=1n∑i=1t i-t y i-y^ ^ ^ 参考公式:相关系数r=,回归方程y=a+b t中斜率和n n∑i=1t i-t2∑i=1y i-y2n^ ∑i=1t i-t y i-y^ ^截距的最小二乘估计公式分别为b=,a=y-b t.n∑i=1t i-t2解:(1)由折线图中的数据和附注中的参考数据得7 7∑∑t=4,(t i-t)2=28, =0.55,y i-y2i=1 i=1167 7 7∑∑∑(t i -t )(y i -y )=t i y i -ty i =40.17-4×9.32=2.89,i =1i =1i =12.89∴r ≈ ≈0.99. 0.55 × 2 × 2.646因为 y 与 t 的相关系数近似为 0.99,说明 y 与 t 的线性相关程度相当大,从而可以用线 性回归模型拟合 y 与 t 的关系.9.32 (2)由y = ≈1.331及(1)得77^ ∑i=1t i -ty i -y2.89 b == ≈0.103. 728∑i=1t i -t 2^ a ^=y - b t ≈1.331-0.103×4≈0.92. ^所以 y 关于 t 的回归方程为 y =0.92+0.10t .^将 2016年对应的 t =9代入回归方程得 y =0.92+0.10×9=1.82. 所以预测 2016年我国生活垃圾无害化处理量约为 1.82亿吨.17。
回归分析的基本思想及其初步应用
t检验用于检验单个自变量对因变量的影响是否显著。如果t检验的P值小于显著性水平,则认为该自变 量对因变量的影响是显著的。
回归系数的解释
偏效应
回归系数表示在其他自变量保持不变 的情况下,某一自变量变化一个单位 时因变量的平均变化量。它反映了自 变量对因变量的偏效应。
标准化回归系数
为了消除自变量量纲的影响,可以对 回归系数进行标准化处理。标准化回 归系数表示自变量和因变量的标准化 值之间的相关系数,具有可比性。
03
回归分析的初步应用
一元线性回归分析
01
建立一元线性回归模型
通过收集样本数据,以自变量 和因变量的线性关系为基础, 建立一元线性回归模型。
02
参数估计
利用最小二乘法等估计方法, 对模型中的参数进行估计,得 到回归方程的系数。
03
假设检验
对回归方程进行显著性检验, 判断自变量和因变量之间是否 存在显著的线性关系。
通过调整模型参数或引入新的 变量等方式优化模型,提高模 型的拟合精度和预测能力。
逐步回归分析
1 引入变量
从所有自变量中逐步引入对因变量有显著影响的变量, 建立初始回归模型。
2 检验与调整
从所有自变量中逐步引入对因变量有显著影响的变量, 建立初始回归模型。
3 逐步筛选
从所有自变量中逐步引入对因变量有显著影响的变量, 建立初始回归模型。
立
详细阐述了线性回归模型的构建 过程,包括模型的假设、参数的 估计和模型的检验等步骤。
回归分析的初步应
用
通过实例演示了回归分析在解决 实际问题中的应用,包括预测、 解释变量关系和控制变量等方面 的应用。
对未来学习的建议与展望
深入学习回归分析的理论知识
《1.1回归分析的基本思想及其初步应用》(优质课)
我们可以用相关指数R2来刻画回归的效果,其计算公式是
R 1
2
2 ( y y ) i i 2 ( y y ) i i 1 i 1 n
n
残差平方和 1 。 总偏差平方和
显然,R2的值越大,说明残差平方和越小,也就是说模型拟合效果越好。
在线性回归模型中,R2表示解析变量对预报变量变化的贡献率。
R2越接近1,表示回归的效果越好(因为R2越接近1,表示解析变量和预报变量的 线性相关性越强)。 如果某组数据可能采取几种不同回归方程进行回归分析,则可以通过比较R2的值 来做出选择,即选取R2较大的模型作为这组数据的模型。
总的来说: 相关指数R2是度量模型拟合效果的一种指标。 在线性模型中,它代表自变量刻画预报变量的能力。
ˆ ˆ 最小二乘法: y ˆ = bx+a
n (xi -x)(yi -y) b= ˆ i=1 = n 2 (xi -x) i=1 ˆ a=y-bx. ˆ
x y
i=1 n
n
i i 2
- nxy - nx
2
x
i=1
,
i
1 n 1 n 其中x = y= xi, yi. n i=1 n i=1
(x,y)
称为样本点的中心即样本中心点。
2、回归直线方程: ˆ +a 1、所求直线方程 y ˆ 叫做回归直 ˆ = bx ---线方程;其中
ˆ= b
(x
i=1
n
i
- x)(yi - y) = - x)
2 i
x y - nxy
i i=1 n i
n
(x
i=1
n
x
i=1
2 i
高中数学 第一章回归分析的基本思想及其初步应用教案3 新人教A版选修1-2
第三课时1.1回归分析的基本思想及其初步应用(三)教学要求:通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用. 教学重点:通过探究使学生体会有些非线性模型通过变换可以转化为线性回归模型,了解在解决实际问题的过程中寻找更好的模型的方法.教学难点:了解常用函数的图象特点,选择不同的模型建模,并通过比较相关指数对不同的模型进行比较. 教学过程:一、复习准备:1. 给出例3:一只红铃虫的产卵数y 和温度x 有关,现收集了7组观测数据列于下表中,试建立y 与x 之间的回归方程./y 个 2. 讨论:观察右图中的散点图,发现样本点并没有分布在某个带状区域内,即两个变量不呈线性相关关系,所以不能直接用线性回归方程来建立两个变量之间的关系. 二、讲授新课: 1. 探究非线性回归方程的确定: ① 如果散点图中的点分布在一个直线状带形区域,可以选线性回归模型来建模;如果散点图中的点分布在一个曲线状带形区域,就需选择非线性回归模型来建模.② 根据已有的函数知识,可以发现样本点分布在某一条指数函数曲线y =2C 1e x C 的周围(其中12,c c 是待定的参数),故可用指数函数模型来拟合这两个变量.③ 在上式两边取对数,得21ln ln y c x c =+,再令ln z y =,则21ln z c x c =+,而z 与x 间的方程来拟合.④ 利用计算器算得 3.843,0.272a b =-=,z 与x 间的线性回归方程为0.272 3.843z x =-,因此红铃虫的产卵数对温度的非线性回归方程为0.272 3.843x y e-=.⑤ 利用回归方程探究非线性回归问题,可按“作散点图→建模→确定方程”这三个步骤进行.其关键在于如何通过适当的变换,将非线性回归问题转化成线性回归问题.2. 小结:用回归方程探究非线性回归问题的方法、步骤. 三、巩固练习:(1(2)试求出预报变量对解释变量的回归方程.(答案:所求非线性回归方程为0.69 1.112ˆy =e x +.)。
2017-2018学年高中数学 第一章 1.1 回归分析的基本思想及其初步应用(含解析)新人教A版选修1-2
回归分析的基本思想及其初步应用预习课本P2~8,思考并完成以下问题 1.什么是回归分析?2.什么是线性回归模型?3.求线性回归方程的步骤是什么?[新知初探]1.回归分析 (1)回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法. (2)回归方程的相关计算对于两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ).设其回归直线方程为y ^=b ^x +a ^,其中a ^,b ^是待定参数,由最小二乘法得b ^=∑i =1nx i -xy i -y∑i =1nx i -x2=∑i =1nx i y i -nx y∑i =1nx 2i -n x 2,a ^=y -b ^x .(3)线性回归模型线性回归模型⎩⎪⎨⎪⎧y =bx +a +e ,E e =0,De =σ2,其中a ,b 为模型的未知参数,通常e 为随机变量,称为随机误差.x 称为解释变量,y 称为预报变量.[点睛] 对线性回归模型的三点说明(1)非确定性关系:线性回归模型y =bx +a +e 与确定性函数y =a +bx 相比,它表示y 与x 之间是统计相关关系(非确定性关系),其中的随机误差e 提供了选择模型的准则以及在模型合理的情况下探求最佳估计值a ,b 的工具.(2)线性回归方程y ^=b ^x +a ^中a ^,b ^的意义是:以a ^为基数,x 每增加1个单位,y 相应地平均增加b ^个单位.2.线性回归分析(1)残差:对于样本点(x i ,y i )(i =1,2,…,n )的随机误差的估计值 e ^i =y i -y ^i 称为相应于点(x i ,y i )的残差,∑i =1n(y i -y ^i )2称为残差平方和.(2)残差图:利用图形来分析残差特性,作图时纵坐标为残差, 横坐标可以选为样本编号,或身高数据,或体重的估计值等,这样作出的图形称为残差图.(3)R 2=1-∑i =1ny i -y ^i2∑i =1ny i -y2越接近1,表示回归的效果越好.[小试身手]1.判断下列命题是否正确.(正确的打“√”,错误的打“×”) (1)残差平方和越小, 线性回归方程的拟合效果越好.( )(2)在画两个变量的散点图时, 预报变量在x 轴上,解释变量在y 轴上.( ) (3)R 2越小, 线性回归方程的拟合效果越好.( ) 答案:(1)√ (2)× (3)×2.从散点图上看,点散布在从左下角到右上角的区域内, 两个变量的这种相关关系称为________.答案:正相关3.在残差分析中, 残差图的纵坐标为________. 答案:残差4.如果发现散点图中所有的样本点都在一条直线上, 则残差平方和等于________, 解释变量和预报变量之间的相关系数等于________.答案:0 1或-1[典例] 某研究机构对高三学生的记忆力x 和判断力y 进行统计分析,得下表数据x 6 8 10 12 y2356(1)(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程 y ^=b ^x +a ^; (3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力. [解] (1)散点图如图:(2)∑i =1nx i y i =6×2+8×3+10×5+12×6=158,x =6+8+10+124=9,y =2+3+5+64=4,∑i =1nx 2i =62+82+102+122=344. b ^=158-4×9×4344-4×92=1420=0.7,a ^=y -b ^x =4-0.7×9=-2.3, 故线性回归方程为y ^=0.7x -2.3.(3)由(2)中线性回归方程知,当x =9时,y ^=0.7×9-2.3=4,故预测记忆力为9的同学的判断力约为4.求线性回归方程的三个步骤(1)画散点图:由样本点是否呈条状分布来判断两个量是否具有线性相关关系. (2)求回归系数:若存在线性相关关系,则求回归系数.(3)写方程:写出线性回归方程,并利用线性回归方程进行预测说明. [活学活用]某工厂1~8月份某种产品的产量与成本的统计数据见下表:月份 12345678产量(吨) 5.6 6.0 6.1 6.4 7.0 7.5 8.0 8.2 成本(万元)130136143149157172183188以产量为x ,成本为y . (1)画出散点图;(2)y 与x 是否具有线性相关关系?若有,求出其回归方程. 解:(1)由表画出散点图,如图所示.(2)从上图可看出,这些点基本上散布在一条直线附近,可以认为x 和y 线性相关关系显著,下面求其回归方程,首先列出下表.计算得x =6.85,y =157.25.∴b ^=∑i =18x i y i -8xy∑i =18x 2i -8x 2=8 764.5-8×6.85×157.25382.02-8×6.852≈22.17, a ^=y -b ^x =157.25-22.17×6.85≈5.39,故线性回归方程为y ^=22.17x +5.39.1.在一段时间内,某种商品的价格x 元和需求量y 件之间的一组数据为:求出y 对x 解:x =15(14+16+18+20+22)=18,y =15(12+10+7+5+3)=7.4.∑i =15x 2i =142+162+182+202+222=1 660, ∑i =15x i y i =14×12+16×10+18×7+20×5+22×3=620,可得回归系数b ^=∑i =15x i y i -5xy∑i =15x 2i -5x 2=620-5×18×7.41 660-5×182=-1.15.所以a ^=7.4+1.15×18=28.1所以回归直线方程:y ^=-1.15x +28.1. 列出残差表:则∑i =15(y i -y ^i )2=0.3,∑i =15(y i -y )2=53.2.R 2=1-∑i =15y i -y ^i2∑i =15y i -y2≈0.994.所以回归模型的拟合效果很好. 题点二:非线性回归分析2.为了研究某种细菌随时间x 变化繁殖个数y 的变化,收集数据如下繁殖个数y 612254995190(1)(2)求y与x之间的回归方程.解:(1)散点图如图所示:(2)由散点图看出样本点分布在一条指数函数y1=c1e c2x的周围,于是令z=ln y,则x 12345 6z 1.792.483.223.894.555.25由计算器算得,z=0.69x+1.112,则有y=e0.69x+1.112.(1)当两个变量已明显呈线性相关关系时,则无需作散点图,就可直接求回归直线方程,否则要先判定相关性再求回归方程.判断拟合效果的好坏需要利用R2确定,R2越接近1,说明拟合效果越好.(2)非线性回归方程的求法①根据原始数据(x,y)作出散点图;②根据散点图,选择恰当的拟合函数;③作恰当的变换,将其转化成线性函数,求线性回归方程;④在③的基础上通过相应的变换,即可得非线性回归方程.层级一学业水平达标1.在对两个变量x,y进行线性回归分析时,有下列步骤:①对所求出的回归直线方程作出解释;②收集数据(x i,y i),i=1,2,…,n;③求线性回归方程;④求相关系数;⑤根据所搜集的数据绘制散点图.如果根据可行性要求能够作出变量x,y具有线性相关的结论,则在下列操作顺序中正确的是( )A.①②⑤③④B.③②④⑤①C .②④③①⑤D .②⑤④③①解析:选D 对两个变量进行回归分析时,首先收集数据(x i ,y i ),i =1,2,…,n ;根据所搜集的数据绘制散点图.观察散点图的形状,判断线性相关关系的强弱,求相关系数,写出线性回归方程,最后依据所求出的回归直线方程作出解释;故正确顺序是②⑤④③①, 故选D .2.有下列说法:①在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适; ②R 2来刻画回归的效果,R 2值越大,说明模型的拟合效果越好;③比较两个模型的拟合效果, 可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好.其中正确命题的个数是( ) A .0 B .1 C .2D .3解析:选D ①选用的模型是否合适与残差点的分布有关; 对于②③, R 2的值越大, 说明残差平方和越小, 随机误差越小,则模型的拟合效果越好.3.下图是根据变量x ,y 的观测数据(x i ,y i )(i =1,2,…,10)得到的散点图,由这些散点图可以判断变量x ,y 具有相关关系的图是( )A .①②B .①④C .②③D .③④解析:选D 根据散点图中点的分布情况,可判断③④中的变量x ,y 具有相关的关系. 4.(重庆高考)已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能为( )A .y ^=0.4x +2.3B .y ^=2x -2.4 C .y ^=-2x +9.5 D .y ^=-0.3x +4.4解析:选A 依题意知,相应的回归直线的斜率应为正,排除C ,D .且直线必过点(3,3.5)代入A ,B 得A 正确.5.为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y =b x +a ,其中b =0.76,a =y -b x .据此估计,该社区一户年收入为15万元家庭的年支出为( )A .11.4万元B .11.8万元C .12.0万元D .12.2万元解析:选B 由题意知,x =8.2+8.6+10.0+11.3+11.95=10,y =6.2+7.5+8.0+8.5+9.85=8,∴a ^=8-0.76×10=0.4,∴当x =15时,y ^=0.76×15+0.4=11.8(万元). 6.以下是某地区的降雨量与年平均气温的一组数据:或“不具有”)解析:画出散点图,观察可知,降雨量与年平均气温没有相关关系.答案:不具有7.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为________.解析:根据样本相关系数的定义可知, 当所有样本点都在直线上时, 相关系数为1. 答案:18.下列说法正确的命题是________(填序号). ①回归直线过样本点的中心(x ,y );②线性回归方程对应的直线y ^=b ^x +a ^至少经过其样本数据点(x 1,y 1),(x 2,y 2),…,(x n ,y n )中的一个点;③在残差图中,残差点分布的带状区域的宽度越宽,其模型拟合的精度越高; ④在回归分析中,R 2为0.98的模型比R 2为0.80的模型拟合的效果好. 解析:由回归分析的概念知①④正确,②③错误. 答案:①④9.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:(1)求回归直线方程y =b x +a ,其中b =-20,a =y -b x ;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)解:(1)x =16(8+8.2+8.4+8.6+8.8+9)=8.5,y =16(90+84+83+80+75+68)=80,从而a ^=y +20x =80+20×8.5=250, 故y ^=-20x +250.(2)由题意知, 工厂获得利润z =(x -4)y =-20x 2+330x -1 000=-20⎝⎛⎭⎪⎫x -3342+361.25,所以当x =334=8.25时,z max =361.25(元).即当该产品的单价定为8.25元时,工厂获得最大利润.10.关于x 与y 有以下数据:已知x 与y 线性相关,由最小二乘法得b ^=6.5, (1)求y 与x 的线性回归方程;(2)现有第二个线性模型:y ^=7x +17,且R 2=0.82.若与(1)的线性模型比较,哪一个线性模型拟合效果比较好,请说明理由. 解:(1)依题意设y 与x 的线性回归方程为y ^=6.5x +a ^.x =2+4+5+6+85=5,y =30+40+60+50+705=50,∵y ^=6.5x +a ^经过(x ,y ), ∴50=6.5×5+a ^,∴a ^=17.5,∴y 与x 的线性回归方程为y ^=6.5x +17.5. (2)由(1)的线性模型得y i -y ^i 与y i -y 的关系如下表:所以∑i =15(y i -y ^i )2=(-0.5)2+(-3.5)2+102+(-6.5)2+0.52=155.∑i =15(y i -y )2=(-20)2+(-10)2+102+02+202=1 000.所以R 21=1-∑i =15y i -y ^i2∑i =15y i -y2=1-1551 000=0.845.由于R 21=0.845,R 2=0.82知R 21>R2, 所以(1)的线性模型拟合效果比较好.层级二 应试能力达标1.在建立两个变量y 与x 的回归模型中,分别选择4个不同模型,求出它们相对应的R 2如表,则其中拟合效果最好的模型是( )A .模型1B .模型2C .模型3D .模型4解析:选B 线性回归分析中,相关系数为r ,|r |越接近于1, 相关程度越大; |r |越小, 相关程度越小,故其拟合效果最好. 故选B .2.如果某地的财政收入x 与支出y 满足线性回归方程y =bx +a +e (单位:亿元),其中b =0.8,a =2,|e |≤0.5,如果今年该地区财政收入为10亿元,则年支出预计不会超过( )A .10亿B .9亿C .10.5亿D .9.5亿解析:选C ∵x =10时,y =0.8×10+2+e =10+e , 又∵|e |≤0.5,∴y ≤10.5.3.某咖啡厅为了了解热饮的销售量y (个)与气温x (℃)之间的关系,随机统计了某4天的销售量与气温,并制作了对照表:由表中数据,得线性回归方程y =-2x +a .当气温为-4 ℃时,预测销售量约为( ) A .68 B .66 C .72D .70解析:选A ∵x =14(18+13+10-1)=10,y =14(24+34+38+64)=40,∴40=-2×10+a ,∴a =60,当x =-4时,y =-2×(-4)+60=68.4.甲、乙、丙、丁4位同学各自对A ,B 两变量进行回归分析,分别得到散点图与残差平方和i =1n (y i -y ^i )2如下表:哪位同学的试验结果体现拟合A ,B 两变量关系的模型拟合精度高( ) A .甲 B .乙 C .丙D .丁解析:选D 根据线性相关的知识,散点图中各样本点条状分布越均匀,同时保持残差平方和越小(对于已经获取的样本数据,R 2的表达式中 i =1n(y i -y )2为确定的数,则残差平方和越小,R 2越大),由回归分析建立的线性回归模型的拟合效果越好,由试验结果知丁要好些.故选D .5.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线y =ebx +a的周围,令z ^=ln y ,求得回归直线方程为z ^=0.25x -2.58,则该模型的回归方程为________.解析:因为z ^=0.25x -2.58,z ^=ln y ,所以y =e 0.25x -2.58. 答案:y =e 0.25x -2.586.调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的回归直线方程:y ^=0.254x +0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.解析:以x +1代x ,得y ^=0.254(x +1)+0.321,与y ^=0.254x +0.321相减可得,年饮食支出平均增加0.254万元.答案:0.2547.下表是某年美国旧轿车价格的调查资料.解:设x 表示轿车的使用年数,y 表示相应的平均价格,作出散点图.由散点图可以看出y 与x 具有指数关系, 令z =ln y ,变换得作出散点图:由图可知各点基本上处于一直线,由表中数据可求出线性回归方程: z ^=8.166-0.298x .因为旧车的平均价格与使用年数具有指数关系,其非线性回归方程为y ^=e 8.166-0.298x.8.某公司利润y (单位:千万元)与销售总额x (单位:千万元)之间有如下对应数据:(1)画出散点图;(2)求回归直线方程;(3)估计销售总额为24千万元时的利润. 解:(1)散点图如图:(2)列下表,并利用科学计算器进行有关计算.于是b ^=346.3-7×21×2.13 447-7×212≈0.104. a ^=2.1-0.104×21=-0.084,因此回归直线方程为y ^=0.104x -0.084.(3)当x =24时,y =0.104×24-0.084=2.412(千万元).。
高中数学 第一章回归分析的基本思想及其初步应用教案1 新人教A版选修1-2
第一章 统计案例第一课时1.1回归分析的基本思想及其初步应用(一)教学要求:通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用. 教学重点:了解线性回归模型与函数模型的差异,了解判断刻画模型拟合效果的方法-相关指数和残差分析.教学难点:解释残差变量的含义,了解偏差平方和分解的思想.教学过程:一、复习准备:1. 提问:“名师出高徒”这句彦语的意思是什么?有名气的老师就一定能教出厉害的学生吗?这两者之间是否有关?2. 复习:函数关系是一种确定性关系,而相关关系是一种非确定性关系. 回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,其步骤:收集数据→作散点图→求回归直线方程→利用方程进行预报.二、讲授新课:1. 教学例题:的体重. (分析思路→教师演示→学生整理)第一步:作散点图第二步:求回归方程第三步:代值计算 ② 提问:身高为172cm 的女大学生的体重一定是60.316kg 吗?不一定,但一般可以认为她的体重在60.316kg 左右.③ 解释线性回归模型与一次函数的不同事实上,观察上述散点图,我们可以发现女大学生的体重y 和身高x 之间的关系并不能用一次函数y bx a =+来严格刻画(因为所有的样本点不共线,所以线性模型只能近似地刻画身高和体重的关系). 在数据表中身高为165cm 的3名女大学生的体重分别为48kg 、57kg 和61kg ,如果能用一次函数来描述体重与身高的关系,那么身高为165cm 的3名女在学生的体重应相同. 这就说明体重不仅受身高的影响还受其他因素的影响,把这种影响的结果e (即残差变量或随机变量)引入到线性函数模型中,得到线性回归模型y bx a e =++,其中残差变量e 中包含体重不能由身高的线性函数解释的所有部分. 当残差变量恒等于0时,线性回归模型就变成一次函数模型. 因此,一次函数模型是线性回归模型的特殊形式,线性回归模型是一次函数模型的一般形式.2. 相关系数:相关系数的绝对值越接近于1,两个变量的线性相关关系越强,它们的散点图越接近一条直线,这时用线性回归模型拟合这组数据就越好,此时建立的线性回归模型是有意义.3. 小结:求线性回归方程的步骤、线性回归模型与一次函数的不同.。
1.11 回归分析的基本思想及其初步应用(文、理)
1.1 回归分析的基本思想及其初步应用【学习目标】1. 通过对实际问题的分析,了解回归分析的必要性与回归分析的一般步骤。
2. 能作出散点图,能求其回归直线方程。
3. 会用所学的知识对简单的实际问题进行回归分析。
【要点梳理】要点一、变量间的相关关系1. 变量与变量间的两种关系:(1) 函数关系:这是一种确定性的关系,即一个变量能被另一个变量按照某种对应法则唯一确定.例如圆的面积.S 与半径r 之间的关系S=πr 2为函数关系.(2)相关关系:这是一种非确定性关系.当一个变量取值一定时,另一个变量的取值带有一定的随机性,这两个变量之间的关系叫做相关关系。
例如人的身高不能确定体重,但一般来说“身高者,体重也重”,我们说身高与体重这两个变量具有相关关系. 2. 相关关系的分类:(1)在两个变量中,一个变量是可控制变量,另一个变量是随机变量,如施肥量与水稻产量; (2)两个变量均为随机变量,如某学生的语文成绩与化学成绩. 3. 散点图:将两个变量的各对数据在直角坐标系中描点而得到的图形叫做散点图.它直观地描述了两个变量之间有没有相关关系.这是我们判断的一种依据. 4. 回归分析:与函数关系不同,相关关系是一种非确定性关系,对具有相关关系的两个变量进行统计分析的方法叫做回归分析。
要点二、线性回归方程:1.回归直线如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线。
2.回归直线方程ˆˆˆybx a =+ 对于一组具有线性相关关系的数据11(,)x y ,22(,)x y ,……,(,)n n x y ,其回归直线ˆˆˆybx a =+的截距和斜率的最小二乘法估计公式分别为:121()()ˆ()niii ni i x x y y bx x ==--=-∑∑,ˆˆay bx =- 其中x 表示数据x i (i=1,2,…,n )的均值,y 表示数据y i (i=1,2,…,n )的均值,xy 表示数据x i y i (i=1,2,…,n )的均值.a、b 的意义是:以 a 为基数,x 每增加一个单位,y 相应地平均变化b 个单位. 要点诠释:①回归系数121()()ˆ()niii nii x x y y bx x ==--=-∑∑,也可以表示为1221ˆni ii nii x y nx ybxnx==-=-∑∑,这样更便于实际计算。
2017-2018学年高中数学 第一章 统计案例 第1课时 回归分析的基本思想及初步应用课件 新人教
个线性回归方程,所以没有必要进行相关性检验.
其中正确命题的个数是( )
A.1
B.2
C.3
D.4
【解析】 ①反映的正是最小二乘法思想,故正确.②反映的是
散点图的作用,也正确.③解释的是回归方程^y=b^x+a^的作用,故也 正确.④是不正确的,在求回归方程之前必须进行相关性检验,以体
现两变量的关系.
【答案】 C
所以线性回归方程为 y=b^x+a^=0.24x+9. (3)据(2),当 x=150 m2 时,销售价格的估计值为:
202^y1/=5/220.24×150+9=45(万元).
19
考点二 线性回归分析
例 2 已知某商品的价格 x(元)与需求量 y(件)之间的关系有如下一 组数据:
x 14 16 18 20 22 y 12 10 7 5 3 (1)画出 y 关于 x 的散点图. (2)求出回归直线方程. (3)计算 R2 的值,并说明回归模型拟合程度的好坏(参考数据:x = 18,y =7.4,∑i=51x2i =1 660,i∑=51yi2=327,i∑=51xiyi=620,i∑=51 (yi-^yi)2=0.3, ∑i=51 (yi- y )2=53.2.
2021/5/22
16
变式探究 1 以下是某地搜集到的新房屋的销售价格 y 和房屋的 面积 x 的数据:
房屋面积(m2) 110 90 80 100 120 销售价格(万元) 33 31 28 34 39 (1)画出数据对应的散点图. (2)求线性回归方程. (3)据(2)的结果估计当房屋面积为 150 m2 时的销售价格.
2021/5/22
20
么么么么方面
• Sds绝对是假的
解:(1)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.1 回归分析的基本思想及其初步应用
预习课本P2~8,思考并完成以下问题 1.什么是回归分析?
2.什么是线性回归模型?
3.求线性回归方程的步骤是什么?
[新知初探]
1.回归分析 (1)回归分析
回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法. (2)回归方程的相关计算
对于两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ).设其回归直线方程为y ^=b ^x +a ^,其中a ^,b ^
是待定参数,由最小二乘法得
b ^
=
∑i =1
n
x i -x
y i -y
∑i =1
n
x i -x 2
=
∑i =1
n
x i y i -nx y
∑i =1
n
x 2i -n x 2
,
a ^
=y -b ^
x .
(3)线性回归模型
线性回归模型⎩
⎪⎨
⎪⎧
y =bx +a +e ,
E e =0,D e =σ2
,其中a ,b 为模型的未知参数,通常e 为
随机变量,称为随机误差.x 称为解释变量,y 称为预报变量.
[点睛] 对线性回归模型的三点说明
(1)非确定性关系:线性回归模型y =bx +a +e 与确定性函数y =a +bx 相比,它表示y 与x 之间是统计相关关系(非确定性关系),其中的随机误差e 提供了选择模型的准则以及在
模型合理的情况下探求最佳估计值a ,b 的工具.
(2)线性回归方程y ^=b ^x +a ^中a ^,b ^的意义是:以a ^
为基数,x 每增加1个单位,y 相应地平均增加b ^
个单位.
2.线性回归分析
(1)残差:对于样本点(x i ,y i )(i =1,2,…,n )的随机误差的估计值 e ^i =y i -y ^
i 称为相应于点(x i ,y i )的残差,∑i =1n
(y i -y ^i )2
称为残差平方和.
(2)残差图:利用图形来分析残差特性,作图时纵坐标为残差, 横坐标可以选为样本编号,或身高数据,或体重的估计值等,这样作出的图形称为残差图.
(3)R 2
=1-
∑i =1
n
y i -y ^
i 2
∑i =1
n
y i -y
2
越接近1,表示回归的效果越好.
[小试身手]
1.判断下列命题是否正确.(正确的打“√”,错误的打“×”) (1)残差平方和越小, 线性回归方程的拟合效果越好.( )
(2)在画两个变量的散点图时, 预报变量在x 轴上,解释变量在y 轴上.( ) (3)R 2
越小, 线性回归方程的拟合效果越好.( ) 答案:(1)√ (2)× (3)×
2.从散点图上看,点散布在从左下角到右上角的区域内, 两个变量的这种相关关系称为________.
答案:正相关
3.在残差分析中, 残差图的纵坐标为________. 答案:残差
4.如果发现散点图中所有的样本点都在一条直线上, 则残差平方和等于________, 解释变量和预报变量之间的相关系数等于________.
答案:0 1或-
1
[典例] 某研究机构对高三学生的记忆力x 和判断力y 进行统计分析,得下表数据
x 6 8 10 12 y
2
3
5
6
(1)(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程 y ^=b ^x +a ^
; (3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力. [解] (1)散点图如图:
(2)∑i =1
n
x i y i =6×2+8×3+10×5+12×6=158,
x =
6+8+10+124=9,y =2+3+5+6
4
=4,
∑i =1
n
x 2
i =62+82+102+122
=344. b ^
=
158-4×9×4344-4×92=
1420
=0.7,a ^=y -b ^
x =4-0.7×9=-2.3, 故线性回归方程为y ^
=0.7x -2.3.
(3)由(2)中线性回归方程知,当x =9时,y ^
=0.7×9-2.3=4,故预测记忆力为9的同学的判断力约为4.
求线性回归方程的三个步骤
(1)画散点图:由样本点是否呈条状分布来判断两个量是否具有线性相关关系. (2)求回归系数:若存在线性相关关系,则求回归系数.
(3)写方程:写出线性回归方程,并利用线性回归方程进行预测说明. [活学活用]
某工厂1~8月份某种产品的产量与成本的统计数据见下表:
月份 1
2
3
4
5
6
7
8
产量(吨) 5.6 6.0 6.1 6.4 7.0 7.5 8.0 8.2 成本(万元)
130
136
143
149
157
172
183
188
以产量为x ,成本为y . (1)画出散点图;
(2)y 与x 是否具有线性相关关系?若有,求出其回归方程. 解:(1)由表画出散点图,如图所示.
(2)从上图可看出,这些点基本上散布在一条直线附近,可以认为x 和y 线性相关关系显著,下面求其回归方程,首先列出下表.
计算得x =6.85,y =157.25.
∴b ^
=
∑i =1
8
x i y i -8xy
∑i =1
8
x 2i -8x 2
=8 764.5-8×6.85×157.25
382.02-8×6.85
2
≈22.17, a ^
=y -b ^
x =157.25-22.17×6.85≈5.39,
故线性回归方程为y ^
=22.17x +5.39.。