第1节 一元线性回归的经验公式与最小二乘法.
第一课时 一元线性回归模型及其参数的最小二乘估计
解析 由题意得-x=3+4+4 5+6=4.5, -y=25+30+4 40+45=35. ∵回归直线方程^y=b^x+a^中b^=7,∴35=7×4.5+a^,解得a^=3.5, ∴^y=7x+3.5. ∴当 x=10 时,^y=7×10+3.5=73.5(万元). 答案 73.5
(2)列出下表,并用科学计算器进行有关计算.
i
1
2
3
4
5
xi
2
4
5
6
8
yi
30
40
60
50
70
xiyi
60
160
300
300
560
x2i
4
16
25
36
64
-x=5,-y=50,i=∑5 1x2i =145,i=∑5 1xiyi=1 380
5
∑xiyi-5-x
-
y
于是可得,b^=i=15
∑xi2-5-x 2
【训练2】 某车间为了规定工时定额,需要确定加工零件所花费的时间,为此做了四 次实验,得到的数据如下:
零件的个数x(个) 加工的时间y(h)
23 2.5 3
45 4 4.5
(1)已知零件个数与加工时间线性相关,求出y关于x的线性回归方程; (2)试预测加工10个零件需要多少时间?
4
解 (1)由表中数据,得∑xiyi=2×2.5+3×3+4×4+5×4.5=52.5, i=1
【迁移2】 (变条件,变设问)本例中近似方程不变,每小时生产有缺点的零件件数是 7,估计机器的转速. 解 因为 y=5710x-67,所以当 y=7 时,7=5710x-67,解得 x≈11,即估计机器的转速约为 11 转/秒.
一元线性回归模型及参数的最小二乘估计课件-高二数学人教A版(2019)选择性必修第三册
§8.2 一元线性回归模型及其应用 第1课时 一元线性回归模型及参数的最小二乘估计
1 一元线性回归模型 2 最小二乘法和
经验回归方程
3 利用经验回归方程
进行预测
01 一元线性回归模型
知识梳理
一元线性回归模型:我们称
Y=bx+a+e, Ee=0,De=σ2
为Y关于x的_一__元__线__性__回__归_
8
∑i=1xiyi-8 x b^ = 8
∑i=1x2i -8 x
y
2
=132245-6-8×8×52×25982=14,
所以a^ = y -b^ x =98-14×52=12,故经验回归方程为y^=14x+12.
(2)若该次考试数学平均分为120分,物理平均分为91.5分,试由(1)的结 论预测数学成绩为128分的同学的物理成绩.
n
(xi- x )2
n
x2i -n x 2
i=1
i=1
由题意可得 x =15×(1+1.5+2+2.5+3)=2, y =15×(0.9+0.7+0.5+0.3+0.2)=0.52.
5
(xi- x )(yi- y )=-1×0.38-0.5×0.18+0.5×(-0.22)+1×(-0.32)
i=1
(1)(2)(3)(4)(5)回归模型,(6)(7)函数模型.
练1习1 若某地财政收入x与支出y满足一元线性回归模型y=bx+a+e(单
位:亿元),其中b=0.7,a=3,|e|≤0.5,如果今年该地区财政收入10亿
元,年支出预计不会超过
A.9亿元 C.10亿元
一元线性回归模型参数的最小二乘法估计
8.2.1一元线性回归模型1.生活经验告诉我们,儿子的身高与父亲的身高相关.一般来说,父亲的身高较高时,儿子的身高通常也较高.为了进一步研究两者之间的关系,有人调查了14名男大学生的身高及其父亲的身高,得到的数据如表1所示.编号1234567891011121314父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180 儿子身高/cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182从图上看,散点大致分布在一条直线附近根据我们学过的整理数据的方法:相关系数r =0.886.父亲身高/cm180 175 170 165 160160 165 170 175180 185 190 ·· ·· · · · 儿子身高/cm· · · · ·185 1).问题1:可以得到什么结论?由散点图的分布趋势表明儿子的身高与父亲的身高线性相关,通过相关系数可知儿子的身高与父亲的身高正线性相关,且相关程度较高.2).问题2:是否可以用函数模型来刻画?不能,因为不符合函数的定义.这其中还受其它因素的影响.3).问题3:那么影响儿子身高的其他因素是什么?影响儿子身高的因素除父亲的身外,还有母亲的身高、生活的环境、饮食习惯、营养水平、体育锻炼等随机的因素,儿子身高是父亲身高的函数的原因是存在这些随机的因素.4).问题4: 你能否考虑到这些随机因素的作用,用类似于函数的表达式,表示儿子身高与父亲身高的关系吗?用x表示父亲身高,Y表示儿子的身高,用e表示各种其它随机因素影响之和,称e为随机误差, 由于儿子身高与父亲身高线性相关,所以Y=bx+a.考虑随机误差后,儿子的身高可以表示为:Y=bx+a+e由于随机误差表示大量已知和未知的各种影响之和,它们会相互抵消,为使问题简洁,可假设随机误差e的均值为0,方差为与父亲身高无关的定值 . 2σ2即E e D eσ:()0,().==我们称①式为Y 关于x 的一元线性回归模型,其中,Y 称为因变量或响应变量,x 称为自变量或解释变量 . a 称为截距参数,b 称为斜率参数;e 是Y 与bx+a 之间的随机误差.2,()0,().Y bx a e E e D e σ=++⎧⎨==⎩① 2、一元线性回归模型如果用x 表示父亲身高,Y 表示儿子的身高,e 表示随机误差.假定随机误差e 的均值为0,方差为与父亲身高无关的定值 ,则它们之间的关系可以表示为2σ4.问题5:你能结合具体实例解释产生模型①中随机误差项的原因吗?产生随机误差e的原因有:(1)除父亲身高外,其他可能影响儿子身高的因素,比如母亲身高、生活环境、饮食习惯和锻炼时间等.(2)在测量儿子身高时,由于测量工具、测量精度所产生的测量误差.(3)实际问题中,我们不知道儿子身高和父亲身高的相关关系是什么,可以利用一元线性回归模型来近似这种关系,这种近似关系也是产生随机误差e的原因.8.2.2一元线性回归模型参数的最小二乘法估计二、自主探究问题1.为了研究两个变量之间的相关关系, 我们建立了一元线性回归模型表达式 刻画的是变量Y 与变量x 之间的线性相关关系,其中参数a 和b 未知,我们如何通过样本数据估计参数a 和b?2,()0,().Y bx a e E e D e σ=++⎧⎨==⎩问题2.我们怎样寻找一条“最好”的直线,使得表示成对样本数据的这些散点在整体上与这条直线最“接近”?从成对样本数据出发,用数学的方法刻画“从整体上看,各散点与蓝色直线最接近”利用点到直线y=bx+a 的“距离”来刻画散点与该直线的接近程度,然后用所有“距离”之和刻画所有样本观测数据与该直线的接近程度.父亲身高/cm180 175 170 165 160160 165 170 175180 185 190 ·· ·· · · · 儿子身高/cm· · · · ·185 父亲身高/cm180 175 170 165 160160 165 170 175 180 185 190·· ·· · · · 儿子身高/cm· · · · ·185设满足一元线性回归模型的两个变量的n 对样本数据为(x 1,y 1),(x 2,y 2),…,(x n ,y n )父亲身高/cm180 175170165 160160165 170 175 180 185 190·· · · · · · 儿子身高/cm· ·· · · 185()()(1,2,3,,-).i i i i i i i i i i i y bx a e i n y bx a e e x y x bx a =++=⋅⋅⋅+=+由),得(显然越小,表示点,与点,的距离越小,()0,.i i i x y =即样本数据点离直线y=bx+a 的竖直距离越小,如上图特别地,当e 时,表示点在这条直线上1-)ni i i y bx a =+∑因此可用(来刻画各样本观测数据与直线y=bx+a 的整体接近程度.()iix y ,y=bx+a()i i x bx a +,·[]21(,)()ni i i Q a b y bx a ==-+∑残差平方和: 即求a ,b 的值,使Q ( a ,b )最小残差:实际值与估计值之间的差值,即 使Q 取得最小值,当且仅当b 的取值为121()()()nii i nii xx y y b xx ==--=-∑∑b.,ˆ,ˆ的最小二乘估计叫做求得a b a b(,).x y 经验回顾直线必经过的符号相同与相关系数r b ˆ最小二乘法我们将 称为Y 关于x 的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,这种求经验回归方程的方法叫最小二乘法.ˆˆˆy bxa =+12111=i ni n22i ni n x x y y ˆb ,x x ˆˆa x y x y x xy b .i i i i i i ΣΣx )n ΣΣ(()()n ====⎧--⎪=⎪⎨-⎪⎪--=⎩-问题2:依据用最小二乘估计一元线性回归模型参数的公式,求出儿子身高Y 关于父亲身高x 的经验回归方程.儿子的身高不一定会是177cm ,这是因为还有其他影响儿子身高的因素,回归模型中的随机误差清楚地表达了这种影响,父亲的身高不能完全决定儿子的身高,不过,我们可以作出推测,当父亲的身高为176cm 时,儿子身高一般在177cm 左右.当x=176时, ,如果一位父亲身高为176cm,他儿子长大后身高一定能长到177cm 吗?为什么?177y ≈083928957ˆy .x .=+的意义?∧b残差的定义,e a bx Y ++=一元线性回归模型,,Y y 对于通过观测得响应到的数据称量为变观测值ˆ,y通过经验回归方程得到称为预报值的ˆ.ˆey y =-残观测值减去预报值称为即差判断模型拟合的效果:残差分析问题3:儿子身高与父亲身高的关系,运用残差分析所得的一元线性回归模型的有效性吗?残差图:作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据或体重估计值等,这样作出的图形称为残差图.从上面的残差图可以看出,残差有正有负,残差点比较均匀地分布在横轴的两边,可以判断样本数据基本满足一元线性回归模型对于随机误差的假设.所以,通过观察残差图可以直观判断样本数据是否满足一元线性回归模型的假设,从而判断回归模型拟合的有效性.所以,只有图(4)满足一元线性回归模型对随机误差的假设图(1)显示残差与观测时间有线性关系,应将时间变量纳入模型; 图(2)显示残差与观测时间有非线性关系,应在模型中加入时间的非线性函数部分; 图(3)说明残差的方差不是一个常数,随观测时间变大而变大图(4)的残差比较均匀地集中在以横轴为对称轴的水平带状区域内.根据一元线性回归模型中对随机误差的假定,残差应是均值为0,方差为 的随机变量的观测值.2σ观察以下四幅残差图,你认为哪一个残差满足一元线性回归模型中对随机误差的假定?1.残差等于观测值减预测值2.残差的平方和越小越好;3.原始数据中的可疑数据往往是残差绝对值过大的数据;4. 对数据刻画效果比较好的残差图特征:残差点比较均匀的集中在水平带状区域内.归纳小结(残差图中带状越窄,精度越高)1.关于残差图的描述错误的是( )A.残差图的横坐标可以是样本编号B.残差图的横坐标也可以是解释变量或预报变量C.残差点分布的带状区域的宽度越窄相关指数越小D.残差点分布的带状区域的宽度越窄残差平方和越小C 三、巩固提升2.根据如下样本数据:得到的经验回归方程为 ,则( ) A. >0, >0B. >0, <0C. <0, >0D. <0, <0 x 2 3 4 5 6 Y42.5-0.5-2-3a $a $a $a$$b $b$b$b $$ybx a =+$ B3.某种产品的广告支出费用x(单位:万元)与销售额Y(单位:万元)的数据如表:已知Y 关于x 的经验回归方程为 =6.5x+17.5,则当广告支 出费用为5万元时,残差为________. x 2 4 5 6 8Y 30 40 60 50 70$y当x=5时, =6.5×5+17.5=50,表格中对应y=60,于是残差为60-50=10.$y10一元线性回归模型的应用例1.经验表明,对于同一树种,一般树的胸径(树的主干在地面以上1.3m处的直径)越大,树就越高.由于测量树高比测量胸径困难,因此研究人员希望由胸径预测树高.在研究树高与胸径之间的关系时,某林场收集了某种树的一些数据如下表所示,试根据这些数据建立树高关于胸径的经验回归方程.编号 1 2 3 4 5 6胸径/cm 18.1 20.1 22.2 24.4 26.0 28.3树高/m 18.8 19.2 21.0 21.0 22.1 22.1编号7 8 9 10 11 12胸径/cm 29.6 32.4 33.7 35.7 38.3 40.2树高/m 22.4 22.6 23.0 24.3 23.9 24.7dh· · ·· · · · · · · · · 解: 以胸径为横坐标,树高为纵坐标作散点图如下:散点大致分布在一条从左下角到右上角的直线附近,表明两个变量线性相关,并且是正相关,因此可以用一元线性回归模型刻画树高与胸径之间的关系.0.249314.84h d =+··· ·· · · · · · · · 用d 表示胸径,h 表示树高,根据据最小二乘法,计算可得经验回归方程为0.249314.84h d =+根据经验回归方程,由胸径的数据可以计算出树高的预测值(精确到0.1)以及相应的残差,如下表所示.编号胸径/cm 树高观测值/m 树高预测值/m 残差/m1 18.1 18.8 19.4 -0.62 20.1 19.2 19.9 -0.73 22.2 21.0 20.4 0.64 24.4 21.0 20.9 0.15 26.0 22.1 21.3 0.86 28.3 22.1 21.9 0.27 29.6 22.4 22.2 0.28 32.4 22.6 22.9 -0.39 33.7 23.0 23.2 -0.210 35.7 24.3 23.7 0.611 38.3 23.9 24.4 -0.512 40.2 24.7 24.9 -0.2以胸径为横坐标,残差为纵坐标,作残差图,得到下图.30252015-1.0-0.5 0.0 0.5 1.0· · · · · · · 残差/m· · · ·· 354045胸径/cm观察残差表和残差图,可以看到残差的绝对值最大是0.8,所有残差分布在以横轴为对称轴、宽度小于2的带状区域内 .可见经验回归方程较好地刻画了树高与胸径的关系,我们可以根据经验回归方程由胸径预测树高.编号1 2 3 4 5 6 7 8 年份 1896 1912 1921 1930 1936 1956 1960 1968 记录/s 11.8010.6010.4010.3010.2010.1010.009.95例2.人们常将男子短跑100m 的高水平运动员称为“百米飞人”.下表给出了1968年之前男子短跑100m 世界纪录产生的年份和世界纪录的数据.试依据这些成对数据,建立男子短跑100m 世界纪录关于纪录产生年份的经验回归方程以成对数据中的世界纪录产生年份为横坐标,世界纪录为纵坐标作散点图,得到下图在左图中,散点看上去大致分布在一条直线附近,似乎可用一元线性回归模型建立经验回归方程.将经验回归直线叠加到散点图,得到下图:76913031.4902033743.0ˆ1+-=t y用Y 表示男子短跑100m 的世界纪录,t 表示纪录产生的年份 ,利用一元线性回归模型来刻画世界纪录和世界纪录产生年份之间的关系 . 根据最小二乘法,由表中的数据得到经验回归方程为:从图中可以看到,经验回归方程较好地刻画了散点的变化趋势,请再仔细观察图形,你能看出其中存在的问题吗?你能对模型进行修改,以使其更好地反映散点的分布特征吗?仔细观察右图,可以发现散点更趋向于落在中间下凸且递减的某条曲线附近.回顾已有的函数知识,可以发现函数y=-lnx的图象具有类似的形状特征注意到100m短跑的第一个世界纪录产生于1896年, 因此可以认为散点是集中在曲线y=f(t)=c1+c2ln(t-1895)的周围,其中c1、c2为未知参数,且c2<0.y=f(t)=c1+c2ln(t-1895)这是一个非线性经验回归函数,如何利用成对数据估计参数c1、c2令x=ln(t-1895),则Y=c2x+c1对数据进行变化可得下表:编号 1 2 3 4 5 6 7 8 年份/t 1896 1912 1921 1930 1936 1956 1960 1968 x 0.00 2.83 3.26 3.56 3.71 4.11 4.17 4.29 记录/s 11.80 10.60 10.40 10.30 10.20 10.10 10.00 9.95将x=ln(t-1895)代入:得 8012653.114264398.0ˆ2+-=x y上图表明,经验回归方程对于成对数据具有非常好的拟合精度.将经验回归直线叠加到散点图,得到下图: 8012653.114264398.0ˆ2+-=x y8012653.11)1895ln(4264398.0ˆ2+--=t y经验回归方程为对于通过创纪录时间预报世界纪录的问题,我们建立了两个回归模型,得到了两个回归方程,你能判断哪个回归方程拟合的精度更好吗?8012653.114264398.0ˆ2+-=x y① 2ˆ0.4264398ln(1895)11.8012653y t =--+② 我们发现,散点图中各散点都非常靠近②的图象, 表明非线性经验回归方程②对于原始数据的拟合效果远远好于经验回归方程①.(1).直接观察法.在同一坐标系中画出成对数据散点图、非线性经验回归方程②的图象(蓝色)以及经验回归方程①的图象(红色).28212811ˆ,ˆQ Q (()0.004)0.669i i i i eu ===≈=≈∑∑8012653.114264398.0ˆ2+-=x y① 2ˆ0.4264398ln(1895)11.8012653yt =--+②(2).残差分析:残差平方和越小,模型拟合效果越好.Q 2明显小于Q 1,说明非线性回归方程的拟合效果 要优于线性回归方程.R 2越大,表示残差平方和越小,即模型的拟合效果越好 R 2越小,表示残差平方和越大,即模型的拟合效果越差. 21212ˆ()11()n i i nii i y y y y R ==-=-=--∑∑残差平方和。
一元线性回归方程教学课件
Y:人均食品支出
北京市城市居民家庭生活抽样调查图表
10 8 6 4 2 0 0 2 4 6 8 10 12 14 16 18
x:人均生活费收入
第3页,共28页。
§1.1 模型的建立及其假定条件
一、一元线性回归模型
例如:研究某市可支配收入X对人均消费支出Y 的影响。建立如下理论 回归模型:
总离差平方和 = 回归平方和 + 残差平方和
SST
=
SSR
+
SSE
H0: 1 0 H1: 1 0
F SSR /1 ~ F (1, n 2) SSE /(n 2)
拒绝域 F >Fα (1,n-2)
第21页,共28页。
三、 用样本可决系数检验回归方程的拟合优度
R2 = SSR
SST
R2=0时 表明解释变量X与被解释变量Y之间不存在线性关系; R2=1时 表明样本回归线与样本值重合,这种情况极少发生; 一般情况下,R2越接近1表示拟合程度越好,X对Y的解释能力越强。
Yi = 0 + 1 Xi + εi
其中: Yi——被解释变量;
ε I ——随机误差项;
Xi——解释变量; 0,1—回归系数
随机变量ε i包含:
回归模型中省略的变量; 确定数学模型的误差; 测量误差
第4页,共28页。
假设调查了某社区所有居民,他们的人均可支配 收入和消费支出数据如下:
X 80 100 Y
(ei为εi的估计值)
第9页,共28页。
注意:分清4个式子的关系 (1)理论(真实的)回归模型:
Yi 0 1Xi i
(2)理论(真实的)回归直线:
E( Y | X i ) 0 1X i
一元线性回归
残差平方和决定系数首先看看几个定义:总体平方和TSS( total sum of squares)回归平方和RSS(regression sum of squares)残差平方和ESS(Residual sum of squares)其中,y i表示实验数据,f i表示模拟值,表示样本平均值。
决定系数(Coefficient of determination)在一定程度上反应了模型的拟合优度。
其实就是回归平方和在总体平方和中所占的比例。
因为TSS=RSS+ESSThe better the linear regression (on the right) fits the data in comparison to the simple average (on the left graph), the closer the value of R2 is to one. The areas of the blue squares represent the squared residuals with respect to the linear regression. The areas of the red squares represent the squared residuals with respect to the average value.红色区域是总体平方和,蓝色为残差平方和。
>> 为什么要用决定系数去反应拟合优度,而不用残差平方和呢?>> 因为,残差平方和与观测值的绝对大小有关,而决定系数是一个比例。
比如:有一组数据:1000,2000,35000...另一组数据:1,2,3.5...这个时候就会发现第一组数据的拟合后残差平方和会大很多,但是不见得,模型拟合优度就会差。
第三章 一元线性回归第一部分 学习指导一、本章学习目的与要求1、掌握一元线性回归的经典假设;2、掌握一元线性回归的最小二乘法参数估计的计算公式、性质和应用;3、理解拟合优度指标:决定系数R 2的含义和作用;4、掌握解释变量X 和被解释变量Y 之间线性关系检验,回归参数0β和1β的显著性检验5、了解利用回归方程进行预测的方法。
8.2.2一元线性回归模型的最小二乘估计课件(人教版)
ෝ=x,则
通过经验回归方程
x=179.733,即当父亲身高为179.733cm时,儿子的平均身
高与父亲的身高一样.
对于响应变量Y , 通过视察得到的数据称为观测值 , 通
ෝ为预测值. 视察值减去预测值称为
过经验回归方程得到的
残差.
残差是随机误差的估计结果,通过对残差的分析可判
叫做b,a的最小二乘估计.
求得的,ෝ
ഥ); 与相关系数
易得: 经验回归直线必过样本中心(ഥ
,
r符号相同.
对于上表中的数据,利
用我们学过的公式可以计算出
=0.839
,ෝ
=28.957,求出儿
子身高Y关于父亲身高x的经验
回归方程为
ŷ 0.839 x 28.957
相应的经验回归直线如图所示.
n i =1
n i =1
n
n
Q(a,b ) = ( yi - bxi - a ) = [ yi - bxi - ( y - bx ) + ( y - bx ) - a ]
2
i =1
n
2
i =1
= [( yi y ) b( xi - x ) + ( y - bx ) - a ]
2
i =1
i =1
综上,当a)( y y )
i
i
i =1
.
n
( x - x)
2
i
i =1
ˆ
ˆ
a
=
y
bx
时, Q到达最小.
ˆ aˆ 称为Y 关于x 的经验回归方程,也称
一元回归方程公式
一元回归方程公式回归分析只涉及到两个变量的,称一元回归分析。
一元回归的主要任务是从两个相关变量中的一个变量去估计另一个变量,被估计的变量,称因变量,可设为Y;估计出的变量,称自变量,设为X。
回归分析就是要找出一个数学模型Y=f(X),使得从X估计Y可以用一个函数式去计算。
当Y=f(X)的形式是一个直线方程时,称为一元线性回归。
这个方程一般可表示为Y=A+BX。
根据最小平方法或其他方法,可以从样本数据确定常数项A与回归系数B的值。
A、B确定后,有一个X的观测值,就可得到一个Y的估计值。
回归方程是否可靠,估计的误差有多大,都还应经过显著性检验和误差计算。
有无显著的相关关系以及样本的大小等等,是影响回归方程可靠性的因素。
回归方程公式:b=(x1y1+x2y2+...xnyn-nXY)/(x1+x2+...xn-nX)。
1、回归直线方程可以用最小二乘法求回归直线方程中的a,b,从而得到回归直线方程。
线性回归也是回归分析中第一种经过严格研究并在实际应用中广泛使用的类型。
按自变量个数可分为一元线性回归分析方程和多元线性回归分析方程。
2、回归方程是对变量之间统计关系进行定量描述的一种数学表达式。
线性回归模型,是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。
其表达形式为y = w'x+e,e为误差服从均值为0的正态分布。
3、最小二乘法又称最小平方法,是一种数学优化技术。
与最小二乘法不同的是,最大似然法需要已知这个概率分布函数,这在实践中是很困难的。
一般假设其满足正态分布函数的特性,在这种情况下,最大似然估计和最小二乘估计相同。
课件1:§8.2 一元线性回归模型及其应用
.
≈1 530(人).
反思感悟
刻画回归效果的三种方法
(1)残差图法,残差点比较均匀地落在水平的带状区域内说明
选用的模型比较合适.
n
(2)残差平方和法:残差平方和
i=1
果越好.
^ 2
(yi-yi) 越小,模型的拟合效
n
^ 2
yi-yi
i=1
(3)R2 法:R2=1-
越接近 1,表明模型的拟合效果越好.
=1
∑ 2 -
=1
2
^
, = − .
解:(1)根据数据画出散点图(略),由散点图可知y与t线性相关.列表计算如下:
i
1
2
3
4
5
∑
ti
1
2
3
4
5
15
yi
5
6
7
8
10
36
i2
1
4
9
16
25
55
tiyi
5
12
21
32
50
120
这里 n=5, =
1
15
1
36
=1
^
故所求经验回归方程为 =1.2t+3.6.
^
^
(2)将 t=6 代入 =1.2t+3.6,可得 =1.2×6+3.6=10.8(千亿元),
所以预测该地区的居民 2021 年的人民币储蓄存款为 10.8 千亿元.
反思感悟
求经验回归方程可分如下四步来完成
(1)列:列表表示 xi,yi,x2i ,xiyi.
因变量
2
Ee=0,De=σ
8.2一元线性回归模型及其应用(学生版) 讲义-2021-2022学年人教A版(2019)高中数学选
一元线性回归模型及其应用一、一元线性回归模型与函数模型一元线性回归模型:我们称⎩⎨⎧Y =bx +a +e ,E e =0,D e =σ2为Y 关于x 的一元线性回归模型,其中,Y 称为因变量或响应变量,x 称为自变量或解释变量;a 和b 为模型的未知参数,a 称为截距参数,b 称为斜率参数;e 是Y 与bx +a 之间的随机误差.二、最小二乘法和经验回归方程最小二乘法:我们将y ^=b ^x +a ^称为Y 关于x 的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的b ^,a ^叫做b ,a 的最小二乘估计,其中b ^=∑i =1nx i -xy i -y∑i =1nx i -x2,a ^=y -b ^x .(1)经验回归方程y ^=b ^x +a ^必过点(x ,y ).(2)b ^的常用公式b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2.三、利用经验回归方程进行预测(1)判断两个变量是否线性相关:可以利用经验,也可以画散点图. (2)求经验回归方程,注意运算的正确性.(3)根据经验回归方程进行预测估计:估计值不是实际值,两者会有一定的误差. 四、残差及残差分析1.残差:对于响应变量Y ,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.2.残差分析:残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.五、对数函数模型y =c 1+c 2ln x 对数函数模型y =c 1+c 2ln x 的求法 (1)确定变量,作出散点图.(2)根据散点图,做出y =c 1+c 2ln x 的函数选择.(3)变量置换,令z =ln x ,通过变量置换把问题转化为=1+2z 的经验回归问题,并求出经验回归方程=1+2z .(4)根据相应的变换,写出=1+2ln x 的经验回归方程. 六、残差平方和与决定系数R 2 1.残差平方和法残差平方和 i =1n(y i -i )2越小,模型的拟合效果越好.2.决定系数R 2可以用R 2=1-来比较两个模型的拟合效果,R 2越大,模型拟合效果越好,R 2越小,模型拟合效果越差.七、指数函数模型y=αeβx(α>0)指数函数型y=e bx+a回归问题的处理方法(1)函数y=e bx+a的图象,如图所示.(2)处理方法:两边取对数得ln y=ln e bx+a,即ln y=bx+a.令z=ln y,把原始数据(x,y)转化为(x,z),再根据线性回归模型的方法求出a,b.八、幂函数模型y=αxβ(α>0)考点一样本中心解小题【例1】(2021·江西赣州市)某产品在某零售摊位上的零售价x(元)与每天的销售量y(个)统计如下表:x16171819y50m3431据上表可得回归直线方程为 6.4151=-+,则上表中的m的值为( )y xA.38B.39C.40D.41【练1】(2021·广西钦州市)据统计,某产品的市场销售量y(万台)与广告费用投入x(万元)之间的对应数据的散点图如图所示,由图可知y与x之间有较强的线性相关关系,其线性同归方程是0.3=+,则a的值是( )y x aA.2.5B.3C.3.5D.4考点二一元线性方程【例2】(2021·兴义市第二高级中学)在2010年春节期间,某市物价部门,对本市五个商场销售的某商品一天的销售量及其价格进行调查,五个商场的售价x元和销售量y件之间的一组数据如下表所示:价格x99.51010.511销售量y 11 10 8 6 5通过分析,发现销售量y 对商品的价格x 具有线性相关关系,求 (1)销售量y 对商品的价格x 的回归直线方程; (2)若使销售量为12,则价格应定为多少.附:在回归直线ˆˆy bxa =+中1221ˆni ii nii x y nxyb xnx ==-=-∑∑,ˆˆay bx =-【练2】(2021·福建福州市·高二期末)为了研究某班男生身高和体重的关系,从该班男生中随机选取6名,得到他们的身高和体重的数据如下表所示: 编号 1 2 3 4 5 6 身高()cm x 165 171 167 173 179 171 体重()kg y62m64747466在收集数据时,2号男生的体重数值因字迹模糊看不清,故利用其余5位男生的数话得到身高与体重的线性回归方程为11y b x a =+.后来得到2号男生的体重精准数值m 后再次计算得到线性回归方程为22y b x a =+. (1)求回归方程11y b x a =+;(2)若分别按照11y b x a =+和22y b x a =+来预测身高为180cm 的男生的体重,得到的估计值分别为1w ,2w ,且212w w -=,求m 的值;(3)BMI 指数是目前国际上常用的衡量人体胖瘦程度以及是否健康的一个标准,其中BMI 指数在24到27.9之间的定义为超重.通过计算可知这6人的BMI 指数分别为:22.8,27.4,22.9,24.7,23.1,22.6,现从这6人中任选2人,求恰有1人体重为超重的概率.附:回归直线的斜率和截距的最小二乘估计公式分别为:()()()121niii nii x x y y b x x ==--=-∑∑,a y bx =-.考点三 非一元线性方程【例3】(2020·全国高二课时练习)在一次抽样调查中测得5个样本点,得到下表及散点图.x0.250.512 4y1612 521(1)根据散点图判断y a bx =+与1y c k x -=+⋅哪一个适宜作为y 关于x 的回归方程;(给出判断即可,不必说明理由)(2)根据(1)的判断结果试建立y 与x 的回归方程;(计算结果保留整数) (3)在(2)的条件下,设=+z y x 且[)4,x ∈+∞,试求z 的最小值.参考公式:回归方程ˆˆˆybx a =+中,()()()1122211ˆn niii ii i nniii i x x y y x y nx yb x x xnx====---==--∑∑∑∑,a y bx =-.【练3】(2020·全国高三专题练习)某地级市共有200 000名中小学生,其中有7%的学生在2017年享受了“国家精准扶贫”政策,在享受“国家精准扶贫”政策的学生中困难程度分为三个等次:一般困难、很困难、特别困难,且人数之比为5∶3∶2,为进一步帮助这些学生,当地市政府设立“专项教育基金”,对这三个等次的困难学生每年每人分别补助1 000元、1 500元、2 000元.经济学家调查发现,当地人均可支配收入较上一年每增加n %,一般困难的学生中有3n %会脱贫,脱贫后将不再享受“国家精准扶贫”政策,很困难的学生中有2n %转为一般困难,特别困难的学生中有n %转为很困难.现统计了该地级市2013年到2017年共5年的人均可支配收入,对数据初步处理后得到了如图所示的散点图和表中统计量的值,其中年份x 取13时代表2013年,x 与y (万元)近似满足关系式y =212C xC ⋅,其中C 1,C 2为常数(2013年至2019年该市中学生人数大致保持不变).yk521()ii kk =-∑521()ii yy =-∑51()()iii x x y y =--∑ 51()()iii x x kk =--∑2.3 1.23.14.6 2 1其中5211log ,5===∑i i i i k y k k(1)估计该市2018年人均可支配收入;(2)求该市2018年的“专项教育基金”的财政预算大约为多少?附:①对于一组具有线性相关关系的数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线方程y a βμ=+的斜率和截距的最小二乘估计分别为121()()ˆ,()βαβ==--==--∑∑niii nii u u v v v u u ②2-0.7 2-0.3 20.1 21.7 21.8 21.9 0.6 0.81.1 3.2 3.5 3.73课后练习1.(2021高三上·天河月考)下列表述中,正确的个数是()①将一组数据中的每一个数据都加上同一个常数后,方差不变;②设有一个回归方程ŷ=3−5x,变量x增加1个单位时,y平均增加5个单位;③设具有相关关系的两个变量x,y的相关系数为r,那么|r|越接近于0,x,y之间的线性相关程度越高;④在一个2×2列联表中,根据表中数据计算得到K2的观测值k,若k 的值越大,则认为两个变量间有关的把握就越大.A. 0B. 1C. 2D. 32.(2021·菏泽模拟)下列说法错误的是()A. 用相关指数R2来刻画回归效果,R2越小说明拟合效果越好B. 已知随机变量X~N(5,σ2),若P(x<1)=0.1,则P(x≤9)=0.9C. 某人每次投篮的命中率为3,现投篮5次,设投中次数为随机变量5Y.则E(2Y+1)=7D. 对于独立性检验,随机变量K2的观测值k值越小,判定“两分类变量有关系”犯错误的概率越大3.(2021高三上·顺德月考)“绿水青山就是金山银山”,某城市发起了“减少碳排放行动”,通过增加植树面积,逐步实现碳中和,为调查民众对减碳行动的参与情况,在某社区随机调查了90位市民,每位市民对减碳行动给出认可或不认可的评价,得到如图所示的列联表、经计算K2的观测值k=9,则可以推断出()认可不认可40岁以下20 2040岁以上(含40岁) 40 10附:P(K2≥k0)0.010 0.005 0.001k0 6.635 7.879 10.828A. 该社区居民中约有99%的人认可“减碳行动”B. 该社区居民中约有99.5%的人认可“减碳行动C. 在犯错率不超过0.005的前提下,认为“减碳行动"的认可情况与年龄有关D. 在犯错率不超过0.001的前提下,认为“减碳行动"的认可情况与年龄有关精讲答案【例1】【答案】D 【解析】由题意1617181917.54x +++==,50343111544m m y ++++==, 所以115 6.417.51514m +=-⨯+,解得41m =.故选:D . 【练1】【答案】A 【解析】由题可知:24568344455,455x y ++++++++==== 将,x y 代入线性回归方程可得:40.35 2.5a a =⨯+⇒=故选:A【例2】【答案】(1) 3.240y x =-+ (2) 8.75【解析】(1)由题意知10x =,8y =, ∴99958063555108 3.28190.25100110.25121ˆ5100b ++++-⨯⨯==-++++-⨯,8( 3.2)1040a =--⨯=, ∴线性回归方程是 3.240y x =-+;(2)令 3.24012y x =-+=,可得8.75x =,∴预测销售量为12件时的售价是8.75元.【练2】【答案】(1)1413741515y x =-;(2)80m =;(3)815【解析】(1)()11651671731791711715x =⨯++++=, ()16264747466685y =⨯++++=, 所以()()1536161248112i ii x xy y =--=+++=∑,()2153616464120i i x x =-=+++=∑, 所以()()()1121551121412015i ii ii x x y y x x b ==--===-∑∑,11141374681711515a yb x =-=-⨯=-, 所以1413741515y x =-. (2)根据题意,将180x =代入方程1413741515y x =-得1114615w =, 所以2111461176221515w w =+=+=, 所以221176ˆˆ18015b a =⨯+, ① 另一方面,6名男生的身高的平均值为'171x =,体重的平均值为340'6m y +=, 所以22340ˆˆ1716m b a +=⨯+, ② ()()1636161248112i i i x x y y =--=+++=∑,()2163616464120ii x x =-=+++=∑, 所以()()()21626114ˆ15i i i i i x x y y b x x ===-=--∑∑, ③ 综合①②③即可得:21344ˆ15a =-,80m =. (3)设这6人分别记为,,,,,A B C D E F ,其中,B D 表示体重超标的两人,则从这6人中任选2人,所有的可能情况为:,,,,,,,,,,,,,,AB AC AD AE AF BC BD BE BF CD CE CF DE DF EF ,共15种,其中恰有1人体重为超重有:,,,,,,,AB AD BC BE BF CD DE DF ,共8种, 所以恰有1人体重为超重的概率为:815P =. 【例3】【答案】(1)1y c k x -=+⋅;(2)41y x=+;(3)6. 【解析】(1)由题中散点图可以判断,1y c k x -=+⋅适宜作为y 关于x 的回归方程;(2)令1t x -=,则y c kt =+,原数据变为 t 42 1 0.5 0.25 y 16 12 5 2 1由表可知y 与t 近似具有线性相关关系,计算得4210.50.25 1.555t ++++==, 16125217.25y ++++==, 222222416212150.520.2515 1.557.238.4544210.50.255 1.559.3k ⨯+⨯+⨯+⨯+⨯-⨯⨯==≈++++-⨯, 所以,7.24 1.551c y kt =-=-⨯=,则41y t =+.所以y 关于x 的回归方程是41y x=+. (3)由(2)得41z y x x x=+=++,[)4,x ∈+∞, 任取1x 、24x ≥,且12x x >,即124x x >≥, 可得()()()21121212121212124444411x x z z x x x x x x x x x x x x -⎛⎫⎛⎫⎛⎫-=++-++=-+-=-+ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭()()1212124x x x x x x --=,因为124x x >≥,则120x x ->,1216>x x ,所以,12z z >,所以,函数41z x x =++在区间[)4,+∞上单调递增,则min 44164z =++=. 【练3】 【答案】(1)2.8万元;(2)1 624万元.【解析】(1)因为x =15×(13+14+15+16+17)=15,所以521()i i x x =-∑=(-2)2+(-1)2+02+12+22=10.由k =2log y 得k =log 2C 1+C 2x , 所以1221()()1,10()n ii i nii x x k k C x x ==--==-∑∑ 2log C 1=k -C 2x =1.2-110×15=-0.3, 所以C 1=2-0.3=0.8,所以y =100.82x ⨯.当x =18时,y =0.8×21.8=0.8×3.5=2.8(万元).即该市2018年人均可支配收入为2.8万元.(2)由题意知2017年时该市享受“国家精准扶贫”政策的学生有200000×7%=14000人,一般困难、很困难、特别困难的中学生依次有7000人、4200人、2800人,2018年人均可支配收入比2017年增长1.8 1.71.70.820.820.82⨯-⨯⨯=20.1-1=0.1=10%, 所以2018年该市特别困难的中学生有2800×(1-10%)=2520人.很困难的学生有4200×(1-20%)+2800×10%=3640人,一般困难的学生有7000×(1 -30%)+4200×20%=5740人.所以2018年的“专项教育基金”的财政预算大约为5740×1000+3640×1500+2520×2000=16240000(元)=1624(万元).练习答案1.【答案】 C【考点】极差、方差与标准差,变量间的相关关系,独立性检验的基本思想,回归分析的初步应用,相关系数【解析】①将一组数据中的每一个数据都加上同一个常数C后D(X+C)= D(X),方差不变,正确;②设有一个回归方程ŷ=3−5x,变量x增加1个单位时,y平均减少5个单位,错误;③设具有相关关系的两个变量x,y的相关系数为r,那么|r|越接近于1,x,y之间的线性相关程度越高,错误;④在一个2×2列联表中,根据表中数据计算得到K2的观测值k,若k 的值越大,两个变量有关系的出错概率越小,则认为两个变量间有关的把握就越大,正确.故答案为:C【分析】利用已知条件结合方差的性质,得出将一组数据中的每一个数据都加上同一个常数C后D(X+C)=D(X),方差不变;再利用已知条件结合回归方程的应用得出一个回归方程ŷ=3−5x,变量x增加1个单位时,y平均减少5个单位;利用已知条件结合相关系数与x,y之间的线性相关程度判断的关系得出具有相关关系的两个变量x,y的相关系数为r,那么|r|越接近于1,x,y之间的线性相关程度越高;利用已知条件结合K2的观测值k的值越大,两个变量有关系的出错概率越小,则认为两个变量间有关的把握就越大,从而找出正确的个数。
2.2 一元线性回归模型的最小二乘估计
(1)线性性,即它是否是另一随机变量的线性 函数;
(2)无偏性,即它的均值或期望值是否等于总 体的真实值;
(3)有效性,即它是否在所有线性无偏估计量 中具有最小方差。
这三个准则也称作估计量的小样本性质。
拥有这类性质的估计量称为最佳线性无偏估计 量(best liner unbiased estimator, BLUE)。
3、有效性(最小方差性),即在所有线性无偏估计量
中,最小二乘估计量ˆ0 、 ˆ1 具有最小方差。
(1)先求ˆ0 与ˆ1 的方差
var(ˆ1) var( kiYi )
k
2 i
var( 0
பைடு நூலகம்
1X i
i
)
k
2 i
var(i
)
xi xi2
易知 故
ki
xi 0 xi2
ˆ1 1 ki i
ki Xi 1
E(ˆ1 ) E(1 ki i ) 1 ki E(i ) 1
同样地,容易得出
E(ˆ0 ) E(0 wi i ) E(0 ) wi E(i ) 0
二、参数的普通最小二乘估计(OLS)
给定一组样本观测值(Xi, Yi)(i=1,2,…n)要 求样本回归函数尽可能好地拟合这组值.
普通最小二乘法(Ordinary least squares, OLS) 给出的判断标准是:二者之差的平方和
n
n
Q (Yi Yˆi )2 (Yi (ˆ0 ˆ1 X i )) 2
为保证参数估计量具有良好的性质,通常对 模型提出若干基本假设。
一元线性回归
一、一元线性回归(一)基本公式如果预测对象与主要影响因素之间存在线性关系,将预测对象作为因变量y,将主要影响因素作为自变量x,即引起因变量y变化的变量,则它们之间的关系可以用一元回归模型表示为如下形式:y=a+bx+e其中:a和b是揭示x和y之间关系的系数,a为回归常数,b为回归系数e是误差项或称回归余项。
对于每组可以观察到的变量x,y的数值xi,yi,满足下面的关系:yi =a+bxi+ei其中ei是误差项,是用a+bxi去估计因变量yi的值而产生的误差。
在实际预测中,ei是无法预测的,回归预测是借助a+bxi得到预测对象的估计值yi。
为了确定a和b,从而揭示变量y与x之间的关系,公式可以表示为:y=a+bx公式y=a+bx是式y=a+bx+e的拟合曲线。
可以利用普通最小二乘法原理(ols)求出回归系数。
最小二乘法基本原则是对于确定的方程,使观察值对估算值偏差的平方和最小。
由此求得的回归系数为:b=[∑xiyi—x∑yi]/∑xi2—x∑xia=-b式中:xi、yi分别是自变量x和因变量y的观察值,、分别为x和y的平均值.=∑xi/ n ; = ∑yi/ n对于每一个自变量的数值,都有拟合值:yi’=a+bxiyi’与实际观察值的差,便是残差项ei=yi一yi’(二)一元回归流程三)回归检验在利用回归模型进行预测时,需要对回归系数、回归方程进行检验,以判定预测模型的合理性和适用性。
检验方法有方差分析、相关检验、t检验、f检验。
对于一元回归,相关检验与t检验、f检验的效果是等同的,因此,在一般情况下,通过其中一项检验就可以了。
对于多元回归分析,t检验与f检验的作用却有很大的差异。
1.方差分析通过推导,可以得出:∑(yi—y-)2= ∑(yi—yi’)2+∑(yi—y-)2其中:∑(yi—y-)2=tss,称为偏差平方和,反映了n个y值的分散程度,又称总变差。
∑(yi—yi’)2=rss,称为回归平方和,反映了x对y线性影响的大小,又称可解释变差。
高中数学(新人教A版)选择性必修二:一元线性回归模型、一元线性回归模型参数的最小二乘估计【精品课件】
0.177 9
0.094 9
-1.071 1
^
e=
^
y-y
残差图如图所示.
由图可知,残差比较均匀地分布在横轴的两边,说明选用的模型比较合适.
(4)计算得R2≈0.985 5.说明拟合效果较好.
反思感悟(1)解答本类题目应先通过散点图、样本相关系数来分析两个变
量是否线性相关,再利用求经验回归方程的公式求解经验回归方程,并利用
归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘
^ ^
法,求得的b, a叫做 b,a 的最小二乘估计.
n
^
∑ (x i -x)(y i -y)
b = i=1n
2
∑ (x i -x)
其中
,
i=1
^
^
a = y-bx.
回归直线过样本点的中心(x, y)
2.残差与残差分析
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到
2
∑ 2 -
=1
^
^
, = −Biblioteka )解 (1)散点图如图:
(2)由(1)中散点图可知 y 与 x 线性相关.
4
因为 ∑ xiyi=6×2+8×3+10×5+12×6=158,
=1
6+8+10+12
2+3+5+6
x=
=9,y =
=4,
4
4
4
∑ 2 =62+82+102+122=344,
2.67
由z=ln ae0+xln b及最小二乘法,得
ln b≈0.047 7,ln ae0≈2.378,
【高中数学】一元线性回归模型参数的最小二乘估计(1) 高二数学人教A版(2019)选择性必修第三册
(2)
图(2)显示残差与观测时间有非线
性关系,应在模型中加入时间的非
线性函数部分;
(3)
图(3)说明残差的方差不是一个
常数,随观测时间变大而变大
(4)
图(4)的残差比较均匀地集中在以横
轴为对称轴的水平带状区域内.满足
一元线性回归模型对随机误差的假设。
一般地, 建立经验回归方程后,通常需要对模型刻画数据的效果进行
树高 . 在研究树高与胸径之间的关系时,某林场收集了某种树的一些数据
如下表,试根据这些数据建立树高关于胸径的经验回归方程.
编号
1
2
3
4
5
6
7
8
9
10
11
12
胸径/cm 18.1
20.1 22.2 24.4
26.0 28.3 29.6 32.4 33.7 35.7 38.3 40.2
树高/m
19.2 21.0 21.0
Y bx a e,
2
E
(
e
)
0,
D
(
e
)
,
四、估计一元线性回归模型的参数
设满足一元线性回归模型的两个变量
的n对样本数据为(x1, y1), (x2, y2), ‧‧‧, (xn,
yn), 由yi=bxi+a+ei (i=1, 2, ‧‧‧, n),得
| yi (bxi a ) || ei | .
身高每增加1cm,其儿子的身高平均增加0.839cm.
分析模型可以发现,高个子父亲有生高个子儿子的趋势,但一群高
个子父亲的儿子们的平均身高要低于父亲们的平均身高,例如
【高中数学】一元线性回归模型及其参数的最小二乘估计 课件 高二数学人教A版2019选择性必修第三册
问题3:从成对样本数据的散点图和样本相关系数可以发现,散点大致分布在一条直 线附近表明儿子身高和父亲身高有较强的线性关系.我们可以这样理解,由于有其他因 素的存在,使儿子身高和父亲身高有关系但不是函数关系.那么影响儿子身高的其他因 素是什么?
影响儿子身高的因素除父亲的身外,还有母亲的身高、生活的环境、饮食习惯、营 养水平、体育锻炼等随机的因素,儿子身高是父亲身高的函数的原因是存在这些随 机的因素.
儿子身高 / cm
190
185
180
175
170
165
160 160
165
170
175
180
185父亲身高 / cm
方法二: 在图中选择这样的两点画直线,使得直线两侧的点的个数基 本相同,把这条直线作为所求直线,如图(2)所示.
儿子身高 / cm
190
185
180
175
170
165
160 160
你能结合父亲与儿子身高的实例,说明回归模型(1)的意义?
E(Y) E(bx a e) E(bx a) E(e)
(bx a) 0 bx a
对于父亲身高为xi的某一名男大学生,他的身高yi一定是bxi+a吗?
课堂练习(课本P107)
3. 将图8.2-1中的点按父亲身高的大小次序用折线连起来,所得到的图象是 一个折线图,可以用这条折线表示儿子身高和父亲身高之间的关系吗?
探究 利用散点图找出一条直线,使各散点在整体上与此直线尽可能接近.
儿子身高 / cm
190
185
180
175
170
165
160 160
165
170
175
180
8.2.2一元线性回归模型参数的最小二乘估计(第一课时)
i 1
i 1
n
n
[( y y) b( x x)] [( y bx) a] ( y bx a)[( y y) b( x x)]
i 1
i
i
i 1
n
n
i 1
i 1
i
i
( y bx a)( ( yi y ) b ( xi x)) ( y bx a)[(n y n y ) b(nx nx)] 0
i 1
n
| yi (bxi a) |
i 1
n
残差平方和:Q (a, b) ( yi (bxi a )) 2
i 1
在上式中,xi,yi(i=1,2,3,…,n)是已知的成对样本数据,所以Q由a和b所决定,即它是
a和b的函数,因为Q还可以表示为
, 即它是随机误差的平方和,这个和当然越
n
Q(a, b) [( yi y ) b( xi x)]2 n[( y bx ) a ]2
i 1
当Q(a, b)取最小时,n[( y bx) a ]2 取最小值0,即a = y bx
n
此时,Q(a, b) [( yi y ) b( xi x)] =b
172cm的女大学生的体重.
典型例题
n
由
bˆ
( x X )( y Y )
i
i 1
i
n
(X
i 1
i
X)
â Y bX
2
得:bˆ 0.849, aˆ 85.712
ˆ 0.849 x 85.712
故所求线性回归方程为:y
选择性必修第三册8.2.2一元线性回归模型参数的最小二乘估计课件(人教版)(1)
编号 胸径/cm 树高/cm
1 2 3 4 5 6 7 8 9 10 11 12 18.1 20.1 22.2 24.4 26.0 28.3 29.6 32.4 33.7 35.7 38.3 40.2 18.8 19.2 21.0 21.0 22.1 22.1 22.4 22.6 23.0 24.3 23.9 24.7
yˆ2 0.4264398 ln(t 1895) 11.8012653.
②
在同一坐标系中画出成对数据散点图、非线性经验回归方程②的图象(蓝色) 以及经验回归方程①的图象(红色),如图(5)所示. 我们发现,散点图中各散点都 非常靠近②的图象,表明非线性经验回归方程②对于原始数据的拟合效果远远 好于经验回归方程①.
问题人”. 下表给
出了1968年之前男子短跑100m世界纪录产生的年份和世界纪录的数据. 试
根据这些成对数据,建立男子短跑100m世界纪录关于纪录产生年份的经验
回归方程.
编号
12345678
年份
1896 1912 1921 1930 1936 1956 1960 1968
两个经验回归方程的残差(精确到0.001)如下表所示.
编号
t
eˆ uˆ
1 1896 0.591 -0.001
2 1912 -0.284 0.007
3
4
1921 1930
-0.301 -0.218
-0.012 0.015
5 1936 -0.196 -0.018
6 1956 0.111 0.052
7 1960 0.092 -0.021
i 1
i 1
∴ R2 1 0.01318 0.9991. 14.6784
0.025 2.31
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 10 1 10 yi 50 , 解 x xi 8 , y 10 i 1 10 i 1
l xx ( xi x )2 xi2 10x 2 210 ,
第七章
1
变量之间的关系大致有 两种,一是 函数 关系,
是确定性的,如 s = v t ; 另一种是相关关系,是不
确定的. 在社会经济领域,更多的是相关关系. 如投
入与产出、价格与需求的关系等等.
回归分析方法是处理变量间相互关系的有力 工具.
2
第一节
3
一、散点图与回归直线
将n对观察结果作为直角平面上的点,这样得 到的图形称为散点图.散点图可以帮助我们粗略地
看出 x 与 y 的相关关系的形式.
4
例1 价格与供给量的观察数据见下表: x (元) 2 3 4 5 6 8 10 12 14 16 y (吨) 15 20 25 30 35 45 60 80 80 110 散点图
120 100 80 60 40 20 0 0 5 10 15 20
图1
由图1可以看出,x 与 y 之间存在一定的相关关系,
i 1 n
i 1 2 i
Q(a , b) [ yi (a bxi )]2
i 1
n
达到最小. 上述原则即称为最小二乘原则,由此估计 a,b的方法称为最小二乘法. LSE (Least Square Estimation)
9
a , b 的求解:
n
Q(a , b) [ yi (a bxi )]
i 1
D 0 , 所以方程组有唯一解 由于 xi 不全相等,
ˆ ˆx , b ˆ yb a
x y
i 1 n i i 1 2 i
n
i
nx y
2
(x
i 1 n
n
i
x )( yi y ) .
11
x nx
2 ( x x ) i i 1
ˆx , b ˆ ˆ yb a
x y
i 1 n i i 1 2 i
n
i
nx y
2
(x
i 1 n
n
i
x )( yi y ) .
x nx
n i 1 n 2 i
2 ( x x ) i i 1
记 l xx ( xi x ) x nx ,
2 2
n
l yy ( yi y ) y ny ,
2
i 1 n
l xy ( xi x )( yi y ) xi yi nxy ,
i 1 i 1
i 1 n
i 1
2 i
2
n
ˆ 则 b
l xy l xx
显然回归直线经过散点图 ˆx . ˆ yb , a 的几何中心 ( x , y ) .
12
例2 价格与供给量的观察数据见下表:
10
na nxb ny n n 2 n x a ( x i )b x i yi i 1 i 1
系数行列式
D nx
n
2 2 2 n ( x n x ) n ( x x ) , i i x
n i 1 2 i
nx
n
n
i 1
i 1
n
2
Q a 2 [ yi (a bxi )] 0 i 1 n Q 2 [ yi (a bxi )]xi 0 i 1 b
na nxb ny n n —— 称为 正规方程组 2 n x a ( x i )b x i yi i 1 i 1 1 n 1 n 其中 x xi , y yi n i 1 n i 1
且这种关系是线性关系.
5
其他可能的相关关系见下图:
y
y
o
y
x
o
y
x
o
x
o
x
6
图 1的10个点虽然不在一直线上,但大致散布于 一条直线周围,我们把其表示为:
y a bx
~ N (0, 2 )
i 1
i 1
10
10
10
l xy ( xi x ) xi yi 10xy 1350,
2 i 1
i 1
13
10
l xx ( xi x )2 xi2 10x 2 210 ,
i 1
i 1
10
10
l xy ( xi x )2 xi yi 10xy 1350,
2 2 y ~ N ( a bx , ) , 其中 a, b及 都是 即对每一个x值, 不依赖于x 的未知参数. 称上述方程为 y 关于 x 的一
线性回归方程. 通常记为 元
ˆ a bx y
ˆ , 称a 为回归常数 ˆ 及b 由样本对 a, b 进行估计 , 得到a ,
b为回归系数 .
i 1
i 1
10
10
l xy ˆ b 6.4286, l xx
所以所求回归方程为
ˆx 1.4288, ˆ yb a
ˆ 1.4288 6.4286x . y
14
练习:
P240 习题七
15
7
求 a,b 估计值的方法:
(一) 作图法:简单方便,但精度差,局限性大; (二) 参数估计法:
最大似然估计法;
矩估计法; 最小二乘估计法(常用).
8
二、最小二乘法
根据上述假设,对 i 1,2,n,
n
yi a bxi i
i
如 a , b 的值能使
由于
|
i 1
i
| | 为最小,则该直线是较理想的选择. | 最小与 最小一致,故问题成为求 a , b ,使