第二章--最小二乘法和线性回归PPT课件
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
▪ (5)ut~N 0,2,即残差项服从正态分布
-
22
▪ (二)最小二乘估计量的性质
▪ 如果满足假设(1)-(4),由最小二乘法得到的估
计量ˆ 、ˆ 具有一些特性,它们是最优线性无
偏估计量(Best Linear Unbiased Estimators, 简记BLUE)。
-
23
▪ 估计量(estimator):意味着ˆ 、ˆ 是包含着
图2-4 TSS、ESS、RSS的关系
-
37
▪
拟合优度
R2
=
ESS TSS
▪ 因为 TSS=ESS+RSS
(2.37) (2.38)
▪ 所以 R2=ESSTSSRSS1RS(S2.39) TSS TSS TSS
R20,1
▪ R2越大,说明回归线拟合程度越好;R2越小,说 明回归线拟合程度越差。由上可知,通过考察R2 的大小,我们就能粗略地看出回归线的优劣。
结果变量
原因变量
(effect variable); (causal variable)
-
10
▪ α、β为参数(parameters),或称回归系数 (regression coefficients);
▪ ut通常被称为随机误差项(stochastic error term),或随机扰动项(random disturbance term),简称误差项,
其中t(=1,2,3,…..,T)表示观测数。 式(2.3)即为一个简单的双变量回归模型(因其仅 具有两个变量x, y)的基本形式。
-
9
▪ 其中yt被称作因变量 ▪ xt被称作自变量
(dependent variable)、(independent variable)、
被解释变量
解释变量
(explained variable)、(explanatory variable)、
可以进行如下变换:
ly n t lA n lx n t u t (2.11)
▪ 令Yt lnyt、lnA、Xt lnxt,则方程
(2. 11)变为:
Y t Xt ut
(2.12)
可以看到,模型2.12即为一线性模型。
-
20
▪ 4.估计量(estimator)和估计值(estimate) ▪ 估计量是指计算系数的方程;而估计值是指估
▪ 其标准正态分布为:
ˆ-
var
~N0,1
(2.32)
ˆ
var
~
N0,1
(2.33)
-
31
▪ 但是,总体回归方程中的系数的真实标准差是
得不到的,只能得到样本的系数标准差
(SEˆ、SEˆ )。用样本的标准差去替代总体
标准差会产生不确定性,并且
ˆ
ˆ
SE ˆ 、 SE ˆ 将不再服从正态分布,而
服从自由度为T-2的t分布,其中T为样本容量
即:
ˆ
SE ˆ
~
tT 2
(2.34)
-
ˆ
SE ˆ
~ tT 2
(2.35)
32
3.正态分布和t分布的关系
图2-3 正态分布和t分布形状比较
-
33
从图形上来看,t分布的尾比较厚,均值处 的最大值小于正态分布。
随着t分布自由度的增大,其对应临界值显 著减小,当自由度趋向于无穷时,t分布就服从 标准正态分布了。
所以正态分布可以看作是t分布的一个特例。
-
34
第二节 一元线性回归模型的统计检验
一、拟合优度(goodness of fit statistics)检验
拟合优度可用R2 表示:模型所要解释的
是y相对于其均值的波动性,即 yt y2
(总平方和,the total sum of squares, 简记TSS),这一平方和可以分成两部分:
-
6
▪ 对于变量间的相关关系,我们可以根据大量的 统计资料,找出它们在数量变化方面的规律 (即“平均”的规律),这种统计规律所揭示 的关系就是回归关系(regressive relationship),所表示的数学方程就是回归方程 (regression equation)或回归模型 (regression model)。
-
4
▪ 图2-1表示的是我国货币供应量M2(y)与经过 季节调整的GDP(x)之间的关系(数据为 1995年第一季度到2004年第二季度的季度数 据)。
-
5
▪ 但有时候我们想知道当x变化一单位时,y平均 变化多少,可以看到,由于图中所有的点都相 对的集中在图中直线周围,因此我们可以以这 条直线大致代表x与y之间的关系。如果我们能 够确定这条直线,我们就可以用直线的斜率来 表示当x变化一单位时y的变化程度,由图中的 点确定线的过程就是回归。
-
38
▪ 但是,R2作为拟合优度的一个衡量标准也存在 一些问题:
(1)如果模型被重新组合,被解释变量发生了 变化,那么R2也将随之改变,因此具有不同被 解释变量的模型之间是无法来比较R2的大小的。
-
39
(2)增加了一个解释变量以后, R2只会增大 而不会减小,除非增加的那个解释变量之前的 系数为零,但在通常情况下该系数是不为零的, 因此只要增加解释变量, R2就会不断的增大, 这样我们就无法判断出这些解释变量是否应该 包含在模型中。
ˆ y ˆx
(2.5) (2.6)
-
15
▪ (二)一些基本概念 ▪ 1.总体(the population)和样本(the sample) ▪ 总体是指待研究变量的所有数据集合,可以是
有限的,也可以是无限的;而样本是总体的一 个子集。
▪ 2、总体回归方程(the population regression function,简记PRF),样本回归方程(the sample regression function,简记SRF)。
T
(residual sum of squares, 简记RSS)
uˆ
2 t
最小,即最小化:
t1
T
T
RSS= ( yt yˆt ) 2 = (yt ˆ ˆxt )2 (2.4)
t 1
t1
-
14
▪ 根据最小化的一阶条件,将式2.4分别对、求 偏导,并令其为零,即可求得结果如下 :
ˆ xt yt Txy xt2 Tx2
▪ 一、有关回归的基本介绍
金融、经济变量之间的关系,大体上可以分 为两种:
(1)函数关系:Y=f(X1,X2,….,XP),其中Y的 值是由Xi(i=1,2….p)所唯一确定的。
(2)相关关系: Y=f(X1,X2,….,XP) ,这里Y的 值不能由Xi(i=1,2….p)精确的唯一确定。
-
3
图2-1 货币供应量和GDP散点图
计拟合直线;相反,如果xt x2越大,散点
越分散,这样就可以容易地估计出拟合直线, 并且可信度也大得多。
▪ 比较图2-2就可以清楚地看到这点。
-
27
图2-2 直线拟合和散点集中度的关系
-
28
▪ (4)xt2 项只影响截距的标准差,不影响斜率 的标准差。理由是:xt2 衡量的是散点与y轴的
距离。xt2 越大,散点离y轴越远,就越难准确
真实α、β值的估计量;
▪ 线性(linear):意味着ˆ 、ˆ 与随机变量y之
间是线性函数关系;
▪ 无偏(unbiased):意味着平均而言,实际得
到的ˆ 、ˆ 值与其真实值是一致的;
▪ 最优(best):意味着在所有线性无偏估计量
里,OLS估计量 ˆ 具有最小方差。
-
24
▪ (三) OLS估计量的方差、标准差和其概率分布
▪ 1.OLS估计量的方差、标准差。
给定假设(1)-(4),估计量的标准差计算方程如 下:
S E ˆs xt2 s xt2
T xtx2 T xt2T x2
(2.21)
SE ˆs
xt1x2s
1 xt2T x2
(2.22)
其中,s
uˆ
2 t
是残差的估计标准差。
T 2
-
25
▪ 参数估计量的标准差具有如下的性质:
比如,y= x2 就是一个线性回归模型,
但 y x 则不是。
▪ 在本课程中,线性回归一词总是对指参数β为 线性的一种回归(即参数只以一次方出现), 对解释变量x则可以是或不是线性的。
-
19
▪ 有些模型看起来不是线性回归,但经过一些基
本代数变换可以转换成线性回归模型。例如,
yt Axteut
(2.10)
-
16
▪ 总体回归方程(PRF)表示变量之间的真实关 系,有时也被称为数据生成过程(DGP), PRF中的α、β值是真实值,方程为:
yt xt+ u t (2. 7)
▪ 样本回归方程(SRF)是根据所选样本估算的
变量之间的关系函数,方程为:
yˆ ˆˆxt
(2.8)
注意:SRF中没有误差项,根据这一方程得到
-
35
yt y2= yˆt y2+ uˆt2 (2.36)
yˆy2是被模型所解释的部分,称为回归平方
和(the explained sum of squares,简记ESS);
是不能被模型所解释的残差平方和(RSS),
即 uˆt2
=
uˆt2
yt yˆt2
-
36
▪ TSS、ESS、RSS的关系以下图来表示更加直 观一些:
地估计出拟合直线与y轴的交点(即截距); 反之,则相反。
-
29
▪ 2.OLS估计量的概率分布
▪ 给定假设条件(5),即u t ~N0,2,则 y t 也服
从正态分布 ▪ 系数估计量也是服从正态分布的:
ˆ~N ,va r (2.30)
ˆ~N,va r (2.31)
-
30
▪ 需要注意的是:如果残差不服从正态分布,即 假设(5)不成立,但只要CLRM的其他假设条件 还成立,且样本容量足够大,则通常认为系数 估计量还是服从正态分布的。
第二章
最小二乘法(OLS) 和线性回归模型
-
1
本章要点
▪ 最小二乘法的基本原理和计算方法 ▪ 经典线性回归模型的基本假定 ▪ BLUE统计量的性质 ▪ t检验和置信区间检验的原理及步骤 ▪ 多变量模型的回归系数的F检验 ▪ 预测的类型及评判预测的标准 ▪ 好模型具有的特征
-
2
第一节 最小二乘法的基本属性
则直 ˆ 线可 ˆ 表示为
yt 。ˆ ˆxt
-
13
▪ 直线上的yt值,记为 yˆ t ,称为拟合值(fitted
value),实际值与拟合值的差,记为u ˆ t ,称
为残差(residual) ,可以看作是随机误差
项u t 的估计值。
▪ 根据OLS的基本原则,使直线与各散点的距
离的平方和最小,实际上是使残差平方和
-
7
▪ 图2-1中的直线可表示为
y=x
(2.1)
根据上式,在确定α、β的情况下,给定一个x
值,我们就能够得到一个确定的y值,然而根
据式(2.1)得到的y值与实际的y值存在一个
误差(即图2-1中点到直线的距离)。
-
8
▪ 如果我们以u表示误差,则方程(2.1)变为:
y=xu (2.2)
即: yt xt ut (2.3)
▪ (1)样本容量T越大,参数估计值的标准差越 小;
▪ (2)SEˆ和SEˆ都取决于s2。 s2是残差的方差
估计量。 s2越大,残差的分布就越分散,这样 模型的不确定性也就越大。如果s2很大,这意 味着估计直线不能很好地拟合散点;
-
26
▪ (3)参数估计值的方差与xt x2 成反比。
其值越小,散点越集中,这样就越难准确地估
计出来的系数数值。
-
21
▪ 三、最小二乘估计量的性质和分布
▪ (一) 经典线性回归模型的基本假设
▪ (1)Eut 0 ,即残差具有零均值;
▪ (2)varut2<∞,即残差具有常数方差,且对 于所有x值是有限的;
▪ (3)cov ui,uj0,即残差项之间在统计意义
上是相互独立的;
▪ (4)covut,xt0,即残差项与变量x无关;
▪ 在回归模型中它是不确定的,服从随机分布 (相应的,yt也是不确定的,服从随机分布)。
-
11
▪ 为什么将ut 包含在模型中? ▪ (1)有些变量是观测不到的或者是无法度量
的,又或者影响因变量yt的因素太多; ▪ (2)在yt的度量过程中会发生偏误,这些偏
误在模型中是表示不出来的;
▪ (3)外界随机因素对yt的影响也很难模型化, 比如:恐怖事件、自然灾害、设备故障等。
-
12
▪ 二、参数的最小二乘估计
▪ (一) 方法介绍
▪ 本章所介绍的是普通最小二乘法(ordinary least squares,简记OLS);
▪ 最小二乘法的基本原则是:最优拟合直线应该 使各点到直线的距离的和最小,也可表述为距 离的平方和最小。
▪ 假定根据这一原理得到的α、β估计值为 、 ,
的是总体因变量的期望值
-
17
于是方程(2.7)可以写为:
yt ˆˆxt uˆt
(2.9)
▪ 总体y值被分解为两部分:模型拟合值( yˆ )
u 和残差项( ˆ t )。
-
18
▪ 3.线性关系
▪ 对线性的第一种解释是指:y是x的线性函数,
比如,y= x。
▪ 对线性的第二种解释是指:y是参数的一个线 性函数,它可以不是变量x的线性函数。
-
22
▪ (二)最小二乘估计量的性质
▪ 如果满足假设(1)-(4),由最小二乘法得到的估
计量ˆ 、ˆ 具有一些特性,它们是最优线性无
偏估计量(Best Linear Unbiased Estimators, 简记BLUE)。
-
23
▪ 估计量(estimator):意味着ˆ 、ˆ 是包含着
图2-4 TSS、ESS、RSS的关系
-
37
▪
拟合优度
R2
=
ESS TSS
▪ 因为 TSS=ESS+RSS
(2.37) (2.38)
▪ 所以 R2=ESSTSSRSS1RS(S2.39) TSS TSS TSS
R20,1
▪ R2越大,说明回归线拟合程度越好;R2越小,说 明回归线拟合程度越差。由上可知,通过考察R2 的大小,我们就能粗略地看出回归线的优劣。
结果变量
原因变量
(effect variable); (causal variable)
-
10
▪ α、β为参数(parameters),或称回归系数 (regression coefficients);
▪ ut通常被称为随机误差项(stochastic error term),或随机扰动项(random disturbance term),简称误差项,
其中t(=1,2,3,…..,T)表示观测数。 式(2.3)即为一个简单的双变量回归模型(因其仅 具有两个变量x, y)的基本形式。
-
9
▪ 其中yt被称作因变量 ▪ xt被称作自变量
(dependent variable)、(independent variable)、
被解释变量
解释变量
(explained variable)、(explanatory variable)、
可以进行如下变换:
ly n t lA n lx n t u t (2.11)
▪ 令Yt lnyt、lnA、Xt lnxt,则方程
(2. 11)变为:
Y t Xt ut
(2.12)
可以看到,模型2.12即为一线性模型。
-
20
▪ 4.估计量(estimator)和估计值(estimate) ▪ 估计量是指计算系数的方程;而估计值是指估
▪ 其标准正态分布为:
ˆ-
var
~N0,1
(2.32)
ˆ
var
~
N0,1
(2.33)
-
31
▪ 但是,总体回归方程中的系数的真实标准差是
得不到的,只能得到样本的系数标准差
(SEˆ、SEˆ )。用样本的标准差去替代总体
标准差会产生不确定性,并且
ˆ
ˆ
SE ˆ 、 SE ˆ 将不再服从正态分布,而
服从自由度为T-2的t分布,其中T为样本容量
即:
ˆ
SE ˆ
~
tT 2
(2.34)
-
ˆ
SE ˆ
~ tT 2
(2.35)
32
3.正态分布和t分布的关系
图2-3 正态分布和t分布形状比较
-
33
从图形上来看,t分布的尾比较厚,均值处 的最大值小于正态分布。
随着t分布自由度的增大,其对应临界值显 著减小,当自由度趋向于无穷时,t分布就服从 标准正态分布了。
所以正态分布可以看作是t分布的一个特例。
-
34
第二节 一元线性回归模型的统计检验
一、拟合优度(goodness of fit statistics)检验
拟合优度可用R2 表示:模型所要解释的
是y相对于其均值的波动性,即 yt y2
(总平方和,the total sum of squares, 简记TSS),这一平方和可以分成两部分:
-
6
▪ 对于变量间的相关关系,我们可以根据大量的 统计资料,找出它们在数量变化方面的规律 (即“平均”的规律),这种统计规律所揭示 的关系就是回归关系(regressive relationship),所表示的数学方程就是回归方程 (regression equation)或回归模型 (regression model)。
-
4
▪ 图2-1表示的是我国货币供应量M2(y)与经过 季节调整的GDP(x)之间的关系(数据为 1995年第一季度到2004年第二季度的季度数 据)。
-
5
▪ 但有时候我们想知道当x变化一单位时,y平均 变化多少,可以看到,由于图中所有的点都相 对的集中在图中直线周围,因此我们可以以这 条直线大致代表x与y之间的关系。如果我们能 够确定这条直线,我们就可以用直线的斜率来 表示当x变化一单位时y的变化程度,由图中的 点确定线的过程就是回归。
-
38
▪ 但是,R2作为拟合优度的一个衡量标准也存在 一些问题:
(1)如果模型被重新组合,被解释变量发生了 变化,那么R2也将随之改变,因此具有不同被 解释变量的模型之间是无法来比较R2的大小的。
-
39
(2)增加了一个解释变量以后, R2只会增大 而不会减小,除非增加的那个解释变量之前的 系数为零,但在通常情况下该系数是不为零的, 因此只要增加解释变量, R2就会不断的增大, 这样我们就无法判断出这些解释变量是否应该 包含在模型中。
ˆ y ˆx
(2.5) (2.6)
-
15
▪ (二)一些基本概念 ▪ 1.总体(the population)和样本(the sample) ▪ 总体是指待研究变量的所有数据集合,可以是
有限的,也可以是无限的;而样本是总体的一 个子集。
▪ 2、总体回归方程(the population regression function,简记PRF),样本回归方程(the sample regression function,简记SRF)。
T
(residual sum of squares, 简记RSS)
uˆ
2 t
最小,即最小化:
t1
T
T
RSS= ( yt yˆt ) 2 = (yt ˆ ˆxt )2 (2.4)
t 1
t1
-
14
▪ 根据最小化的一阶条件,将式2.4分别对、求 偏导,并令其为零,即可求得结果如下 :
ˆ xt yt Txy xt2 Tx2
▪ 一、有关回归的基本介绍
金融、经济变量之间的关系,大体上可以分 为两种:
(1)函数关系:Y=f(X1,X2,….,XP),其中Y的 值是由Xi(i=1,2….p)所唯一确定的。
(2)相关关系: Y=f(X1,X2,….,XP) ,这里Y的 值不能由Xi(i=1,2….p)精确的唯一确定。
-
3
图2-1 货币供应量和GDP散点图
计拟合直线;相反,如果xt x2越大,散点
越分散,这样就可以容易地估计出拟合直线, 并且可信度也大得多。
▪ 比较图2-2就可以清楚地看到这点。
-
27
图2-2 直线拟合和散点集中度的关系
-
28
▪ (4)xt2 项只影响截距的标准差,不影响斜率 的标准差。理由是:xt2 衡量的是散点与y轴的
距离。xt2 越大,散点离y轴越远,就越难准确
真实α、β值的估计量;
▪ 线性(linear):意味着ˆ 、ˆ 与随机变量y之
间是线性函数关系;
▪ 无偏(unbiased):意味着平均而言,实际得
到的ˆ 、ˆ 值与其真实值是一致的;
▪ 最优(best):意味着在所有线性无偏估计量
里,OLS估计量 ˆ 具有最小方差。
-
24
▪ (三) OLS估计量的方差、标准差和其概率分布
▪ 1.OLS估计量的方差、标准差。
给定假设(1)-(4),估计量的标准差计算方程如 下:
S E ˆs xt2 s xt2
T xtx2 T xt2T x2
(2.21)
SE ˆs
xt1x2s
1 xt2T x2
(2.22)
其中,s
uˆ
2 t
是残差的估计标准差。
T 2
-
25
▪ 参数估计量的标准差具有如下的性质:
比如,y= x2 就是一个线性回归模型,
但 y x 则不是。
▪ 在本课程中,线性回归一词总是对指参数β为 线性的一种回归(即参数只以一次方出现), 对解释变量x则可以是或不是线性的。
-
19
▪ 有些模型看起来不是线性回归,但经过一些基
本代数变换可以转换成线性回归模型。例如,
yt Axteut
(2.10)
-
16
▪ 总体回归方程(PRF)表示变量之间的真实关 系,有时也被称为数据生成过程(DGP), PRF中的α、β值是真实值,方程为:
yt xt+ u t (2. 7)
▪ 样本回归方程(SRF)是根据所选样本估算的
变量之间的关系函数,方程为:
yˆ ˆˆxt
(2.8)
注意:SRF中没有误差项,根据这一方程得到
-
35
yt y2= yˆt y2+ uˆt2 (2.36)
yˆy2是被模型所解释的部分,称为回归平方
和(the explained sum of squares,简记ESS);
是不能被模型所解释的残差平方和(RSS),
即 uˆt2
=
uˆt2
yt yˆt2
-
36
▪ TSS、ESS、RSS的关系以下图来表示更加直 观一些:
地估计出拟合直线与y轴的交点(即截距); 反之,则相反。
-
29
▪ 2.OLS估计量的概率分布
▪ 给定假设条件(5),即u t ~N0,2,则 y t 也服
从正态分布 ▪ 系数估计量也是服从正态分布的:
ˆ~N ,va r (2.30)
ˆ~N,va r (2.31)
-
30
▪ 需要注意的是:如果残差不服从正态分布,即 假设(5)不成立,但只要CLRM的其他假设条件 还成立,且样本容量足够大,则通常认为系数 估计量还是服从正态分布的。
第二章
最小二乘法(OLS) 和线性回归模型
-
1
本章要点
▪ 最小二乘法的基本原理和计算方法 ▪ 经典线性回归模型的基本假定 ▪ BLUE统计量的性质 ▪ t检验和置信区间检验的原理及步骤 ▪ 多变量模型的回归系数的F检验 ▪ 预测的类型及评判预测的标准 ▪ 好模型具有的特征
-
2
第一节 最小二乘法的基本属性
则直 ˆ 线可 ˆ 表示为
yt 。ˆ ˆxt
-
13
▪ 直线上的yt值,记为 yˆ t ,称为拟合值(fitted
value),实际值与拟合值的差,记为u ˆ t ,称
为残差(residual) ,可以看作是随机误差
项u t 的估计值。
▪ 根据OLS的基本原则,使直线与各散点的距
离的平方和最小,实际上是使残差平方和
-
7
▪ 图2-1中的直线可表示为
y=x
(2.1)
根据上式,在确定α、β的情况下,给定一个x
值,我们就能够得到一个确定的y值,然而根
据式(2.1)得到的y值与实际的y值存在一个
误差(即图2-1中点到直线的距离)。
-
8
▪ 如果我们以u表示误差,则方程(2.1)变为:
y=xu (2.2)
即: yt xt ut (2.3)
▪ (1)样本容量T越大,参数估计值的标准差越 小;
▪ (2)SEˆ和SEˆ都取决于s2。 s2是残差的方差
估计量。 s2越大,残差的分布就越分散,这样 模型的不确定性也就越大。如果s2很大,这意 味着估计直线不能很好地拟合散点;
-
26
▪ (3)参数估计值的方差与xt x2 成反比。
其值越小,散点越集中,这样就越难准确地估
计出来的系数数值。
-
21
▪ 三、最小二乘估计量的性质和分布
▪ (一) 经典线性回归模型的基本假设
▪ (1)Eut 0 ,即残差具有零均值;
▪ (2)varut2<∞,即残差具有常数方差,且对 于所有x值是有限的;
▪ (3)cov ui,uj0,即残差项之间在统计意义
上是相互独立的;
▪ (4)covut,xt0,即残差项与变量x无关;
▪ 在回归模型中它是不确定的,服从随机分布 (相应的,yt也是不确定的,服从随机分布)。
-
11
▪ 为什么将ut 包含在模型中? ▪ (1)有些变量是观测不到的或者是无法度量
的,又或者影响因变量yt的因素太多; ▪ (2)在yt的度量过程中会发生偏误,这些偏
误在模型中是表示不出来的;
▪ (3)外界随机因素对yt的影响也很难模型化, 比如:恐怖事件、自然灾害、设备故障等。
-
12
▪ 二、参数的最小二乘估计
▪ (一) 方法介绍
▪ 本章所介绍的是普通最小二乘法(ordinary least squares,简记OLS);
▪ 最小二乘法的基本原则是:最优拟合直线应该 使各点到直线的距离的和最小,也可表述为距 离的平方和最小。
▪ 假定根据这一原理得到的α、β估计值为 、 ,
的是总体因变量的期望值
-
17
于是方程(2.7)可以写为:
yt ˆˆxt uˆt
(2.9)
▪ 总体y值被分解为两部分:模型拟合值( yˆ )
u 和残差项( ˆ t )。
-
18
▪ 3.线性关系
▪ 对线性的第一种解释是指:y是x的线性函数,
比如,y= x。
▪ 对线性的第二种解释是指:y是参数的一个线 性函数,它可以不是变量x的线性函数。