03 教学课件_一元线性回归模型及其应用(3)
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
i1
i1
n
n
[( yi y) b(xi x)][( y bx) a] ( y bx a) [( yi y) b(xi x)]
i1
i1
n
n
( y bx a)( ( yi y) b (xi x))
i1
i1
( y bx a)[(n y n y) b(nx nx)] 0
【即时练习】
判断下列变量间哪些能用函数模型刻画,哪些能用回归模型刻画?为什么? 函数模型与回归模型有什么区别?
(1)某公司的销售收入和广告支出;
(2)某城市写字楼的出租率和每平米月租金; (3)航空公司的顾客投诉次数和航班正点率; (4)某地区的人均消费水平和人均国内生产总值(GDP); (5)学生期末考试成绩和考前用于复习的时间;
1.通过对线性回归的分析,培养数据分析的素养. 2.借助回归模型的建立,培养数学建模、数据分析及数学运 算的素养.
探究点1 一元回归模型
生活经验告诉我们,儿子的身高与父亲的身高相关.一般来说, 父亲的身高较高时,儿子的身高通常也较高.为了进一步研究两者 之间的关系,有人调查了14名男大学生的身高及其父亲的身高, 得到的数据如表1所示.
均值的理想状态应该为0. 如果随机误差是一个不为0的常数 e,则可以将 e 合并到截距项a
中,否则模型无法确定,即参数没有唯一解. 如果随机误差e=0,那么Y与x之间的关系就可用一元线性函数模
型来描述.
问题5:请根据以上的分析,你能建立一个数学模型表示儿子身高与父 亲身高的关系吗?
1.一元线性回归模型
编号
1 2 3 4 5 6 7 8 9 10 11 12 13 14
父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180
儿子身高/cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182
i 1
n
| yi (bxi a) |
i 1
n
残差平方和: Q(a,b) yi (bxi a)2 i1
求a,b的值,使Q ( a,b )最小
记x
1 n
n i 1
xi ,
y
1 n
n i 1
yi
n
n
Q(a,b) yi (bxi a)2 ( yi bxi a)2
i1
i1
原始数据中是否存在可疑数据,这方面的分析工作称为残差分析.
问题3:儿子身高与父亲身高的关系,运用残差分析所得的一元线性回归模 型的有效性吗?
残差图:作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据或体重 估计值等,这样作出的图形称为残差图.
从上面的残差图可以看出,残差有正有负,残差点比较均匀地分布在 横轴的两边,可以判断样本数据基本满足一元线性回归模型对于随机误差 的假设.所以,通过观察残差图可以直观判断样本数据是否满足一元线性回 归模型的假设,从而判断回归模型拟合的有效性.
表 示 点 xi, yi与 点 xi, bxi a
170 165 160
····
的距离越小,
160 165 170 175 180 185 父亲身高/cm
即样本数据点离直线y=bx+a的竖直距离越小,如上图
特别地,当e i
0时,表示点 xi ,
yi
在这条直线上.
n
因此可用 yi -(bxi a)来刻画各样本观测数据与直线y=bx+a的整体接近程度.
响应变量Y(体重)
你能结合父亲与儿子身高的实例,说明回归模型①的意义?
Y bx a e,
E
(e)
0,
D(e)
σ
2
.
①
可以解释为父亲身高为xi的所有男大学生身高组成一个子总体,该
子总体的均值为bxi+a,即该子总体的均值与父亲的身高是线性函数关
系. 而对于父亲身高为xi的某一名男大学生,他的身高yi并不一定为
问题4: 各种随机因素都是独立的,有些因素又无法量化. 你能否考虑到这 些随机因素的作用, 用类似于函数的表达式,表示儿子身高与父亲身高的 关系吗?
如果用x表示父亲身高,Y表示儿子的身高,用e表示各种其它随机因素影 响之和,称e为随机误差, 由于儿子身高与父亲身高线性相关,所以
Y=bx+a.
Y=bx+a+e
185 180 175 170
···· ····
···· 165
160 160 165 170 175
180 185 父亲身高/cm
从成对样本数据出发,用数学的方法刻画
“从整体上看,各散点与直线最接近” 利用点到直线y=bx+a的“距离”来刻画散点与该直线的接近程度,然
后用所有“距离”之和刻画所有样本观测数据与该直线的接近程度.
由于随机误差表示大量已知和未知的各种影响之和,它们会相互抵
消,为使问题简洁,可以假设随机误差e的均值为0,方差为与父亲身高无
关的定σ 2值 .
即: E(e) 0, D(e) 2.
思考:为什么要假设E(e)=0,而不假设其为某个不为0的常数? 因为误差是随机的,即取各种正负误差的可能性一样,所以它们
子父亲x=185(cm),则 y 184.172cm.
b的意义?
2.判断模型拟合的效果:残差分析
(1)残差的定义一元线性回归模型Y bx a e,
对于响应变量Y , 通过观测得到的数据y称为观测值, 通过经验回归方程得到的yˆ称为预报值, 观测值减去预报值称为残差即eˆ y yˆ.
我们可以通过残差 e1, e2, , en 来判断模型拟合的效果,判断
的这些散点在整体上与这条直线最接近.
问题2.我们怎样寻找一条“最好”的直线,使得表示成对样本数据
的这些散点在整体上与这条直线最“接近”?
儿子身高/cm
儿子身高/cm
190
190
185 180 175 170
···· ····
···· 165
160 160 165 170 175
180 185 父亲身高/cm
数;e是Y与bx+a之间的随机误差.
2.函数模型与回归模型之间的差别 函数模型:y=bx+a 回归模型:Y=bx+a+e
一元线性回归模型Y=bx+a+e增加了随机误差项e,因变量 Y 的值由自 变量 x 和随机误差项e共同确定, 即自变量x只能解释部分Y的变化.
解释变量x (身高)
模型误差e (其它 所有变量)
8.2一元线性回归模型及其应用
通过前面的学习我们已经了解到,根据成对样本数据的散 点图和样本相关系数,可以推断两个变量是否存在相关关系、 是正相关还是负相关,以及线性相关程度的强弱等.
思考:是否可以通过建立适当的统计模型来刻画两个变量之 间的相关关系?
1.能根据给出的线性回归方程系数公式建立线性回归方程.2.了解随机 误差、残差、残差图的概念.3.会通过分析残差判断线性回归模型的拟 合效果.4.了解常见的非线性回归模型转化为线性回归模型的方法.
我们设满足一元线性回归模型的两个变量的n对样本数据为
(x1,y1),(x2,y2),儿…子身,高/c(mxn,yn)
190
y=bx+a 185 180 175
xi ,bxi a
···· ·····xi ,yi
由 y i b x i a e i ( i 1 , 2 , 3 , , n ) , 得 y i -( b x i a ) e i .显 然 e i 越 小 ,
i1
i1
i1
i1
上式是关于b的二次函数,因此要使Q取得最小值,
当且仅当b的取值为
n
(xi x)( yi y)
b i1 n
(xi x)2
i 1
1.最小二乘法
n
n
(xi x)( yi y)
xi yi n x y
b i1
n
( xi x)2
aˆ
i 1
ˆy bˆx
i 1 n
2).根据经验回归方程 y 0.839x 28.957 中斜率的具体含义,高个子的父 亲一定生高个子的儿子吗?同样,矮个子的父亲一定生矮个子的儿子吗?
根据经验回归方程 y 0.839x 28.957 中斜率0.839可以解释为父亲身 高每增加1cm,其儿子的身高平均增加0.839cm. 由模型可以发现,高个
如果用x表示父亲身高,Y表示儿子的身高,e表示随机误差.假定随
机误差e的均值为0,方差为与父亲身高无关的定值σ 2,则它们之间的
关系可以表示为
Y bx a e,
E
(e
)
0,
D(e
)
σ
2
.
①
我们称①式为Y关于x的一元线性回归模型,其中,Y称为因变量
或响应变量,x称为自变量或解释变量 . a称为截距参数,b称为斜率参
n
n
[yi bxi ( y bx) ( y bx) a]2 [( yi y) b(xi x) ( y bx) a]2
i1
i1
n
n
[( yi y) b(xi x)]2 2 [( yi y) b(xi x)][( y bx) a] n[(y bx) a]2
ˆy 0.839x 28.957
1). 当x=176时,y 177 ,如果一位父亲身高为176cm,他儿子长大后身高一定能 长到177cm吗?为什么?
儿子的身高不一定会是177cm,这是因为还有其他影响儿子身高的因素, 回归模型中的随机误差清楚地表达了这种影响,父亲的身高不能完全决定儿 子的身高,不过,我们可以作出推测,当父亲的身高为176cm时,儿子身高 一般在177cm左右.
n
Q(a, b) [( yi y) b(xi x)]2 n[( y bx) a]2 i 1
当Q(a,b)取最小时,n[( y bx) a]2取最小值0,即a= y bx
n
n
n
n
此时,Q(a,b) [( yi y) b(xi x)]2 =b2 (xi x)2 2b (xi x)( yi y) ( yi y)2
从图上看,散点大致分布在一条 问题2:是否可以用函数模型来刻画?
直线附近根据我们学过的整理数
据的方法:相关系数r =0.886.
不能,因为不符合函数的定义. 这其中还受其它因素的影响.
问题3:那么影响儿子身高的其他因素是什么?
影响儿子身高的因素除父亲的身外,还有 母亲的 身高、生活的环境、饮食习惯、营养水平、体育锻炼 等随机的因素,儿子身高是父亲身高的函数的原因是 存在这些随机的因素.
bxi+a,它不仅是该子总体的一个观测值,这个观测值与均值有一个误差
项 ei yi (bxi a) .
问题6:你能结合具体实例解释产生模型①中随机误差项的原因吗? 产生随机误差e的原因有: (1)除父亲身高外,其他可能影响儿子身高的因素,比如母亲身高、 生活环境、饮食习惯和锻炼时间等.
(2)在测量儿子身高时,由于测量工具、测量精度所产生的测量 误差. (3)实际问题中,我们不知道儿子身高和父亲身高的相关关系是什 么,可以利用一元线性回归模型来近似这种关系,这种近似关系 也是产生随机误差e的原因.
b未知,我们能否通过样本数据估计参数a和b? Y bx a e,
与函数不同,回归模型的参数一般是无法精确
E(e)
0,
D(e)
σ
2
.
求出的,只能通过成对样本数据估计这两个参数. 参数a和b刻画了变量Y与变量x的线性关系,因此通过成对样本数
据估计这两个参数,相当于寻找一条适当的直线,使表示成对样本数据
(6)一辆汽车在某段路程中的行驶速度和行驶时间;
(7)正方形的面积与周长. 解: (1),(2),(3),(4),(5)回归模型(6),(7)函数模型.
探究点2 一元回归模型参数
问题1.为了研究两个变量之间的相关关系, 我们建立了一元线性回归
模型表达式刻画的是变量Y与变量x之间的线性相关关系,其中参数a和
儿子身高/cm
190
185
180
175
170
165
160 162 164 166 168 170 172 174 176 178 180 182 184 父亲身高/cm
问题1:可以得到什么结论?
由散点图的分布趋势表明儿子的 身高与父亲的身高线性相关,通过相 关系数可知儿子的身高与父亲的身高 正线性相关,且相关程度较高.
xi 2
2
nx
i 1
我们将 ˆy bˆx aˆ 称为Y 关于x 的经验回归方程,也
称经验回归函数或经验回归公式,其图形称为经验回归直
线,这种求经验回归方程的方法叫最小二乘法.
求得bˆ, aˆ叫做b, a的最小二乘估计.
经验回顾直线必经过(x, y). bˆ与r符号相同
问题2:依据用最小二乘估计一元线性回归模型参数的公式,求出儿子身高Y 关于父亲身高x的经验回归方程.