计量经济学-第二部分 统计学基础知识复习
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(一) 方法介绍
本章所介绍的是普通最小二乘法(ordinary least squares,简记OLS);
最小二乘法的基本原则是:最优拟合直线应该 使各点到直线的距离的和最小,也可表述为距 离的平方和最小。
假定根据这一原理得到的α、β估计值为 、 , ˆx ˆ ˆ yt 。 ˆ 则直线可表示为 t
4
图2-1表示的是我国货币供应量M2(y)与经过 季节调整的GDP(x)之间的关系(数据为
1995年第一季度到2004年第二季度的季度数
据)。
5
但有时候我们想知道当x变化一单位时,y平均 变化多少,可以看到,由于图中所有的点都相
对的集中在图中直线周围,因此我们可以以这
条直线大致代表x与y之间的关系。如果我们能
35
ˆt y yt y = y
2
2
2 ˆ u + t
(2.36)
2 ˆ 是被模型所解释的部分,称为回归平方 y y
和(the explained sum of squares,简记ESS);
(5)ut~N 0, 2 ,即残差项服从正态分布
22
(二)最小二乘估计量的性质 如果满足假设(1)-(4),由最小二乘法得到的估 计量 ˆ 具有一些特性,它们是最优线性无 ˆ 、 偏估计量(Best Linear Unbiased Estimators, 简记BLUE)。
2 ˆ ( y y ) RSS= t = t t 1 T
ˆ x )2 ˆ ( y t t
t 1
T
(2.4)
14
根据最小化的一阶条件,将式2.4分别对、求 偏导,并令其为零,即可求得结果如下 :
x y T xy ˆ x Tx
t t 2 t 2
(2.5) (2.6)
ˆx ˆ y
15
(二)一些基本概念 1.总体(the population)和样本(the sample)
总体是指待研究变量的所有数据集合,可以是 有限的,也可以是无限的;而样本是总体的一 个子集。
2、总体回归方程(the population regression function,简记PRF),样本回归方程(the sample regression function,简记SRF)。
34
二
一元线性回归模型的统计检验
一、拟合优度(goodness of fit statistics)检验
拟合优度可用R2 表示:模型所要解释的
是y相对于其均值的波动性,即 y t y
(总平方和,the total sum of squares,
2
简记TSS),这一平方和可以分成两部分:
够确定这条直线,我们就可以用直线的斜率来
表示当x变化一单位时y的变化程度,由图中的 点确定线的过程就是回归。
6
对于变量间的相关关系,我们可以根据大量的 统计资料,找出它们在数量变化方面的规律 (即“平均”的规律),这种统计规律所揭示 的关系就是回归关系(regressive
relationship),所表示的数学方程就是回归方程
(1)E ut 0 ,即残差具有零均值;
(2)var ut 2<∞,即残差具有常数方差,且对 于所有x值是有限的; (3)cov ui , u j 0 ,即残差项之间在统计意义 上是相互独立的;
(4)covut , xt 0,即残差项与变量x无关;
(2.32)
ˆ ~ N 0,1 var
(2.33)
31
但是,总体回归方程中的系数的真实标准差是 得不到的,只能得到样本的系数标准差
ˆ )。用样本的标准差去替代总体 ( SE ˆ 、 SE
标准差会产生不确定性,并且
ˆ ˆ ˆ 将不再服从正态分布,而 ˆ 、 SE SE 服从自由度为T-2的t分布,其中T为样本容量
17
于是方程(2.7)可以写为:
ˆx u ˆ ˆt yt t
和残差项(
(2.9)
总体y值被分解为两部分:模型拟合值(
ˆt )。 u
ˆ) y
18
3.线性关系 对线性的第一种解释是指:y是x的线性函数, 比如,y= x。 对线性的第二种解释是指:y是参数的一个线 性函数,它可以不是变量x的线性函数。 2 比如,y= x 就是一个线性回归模型, 但 y x 则不是。
(dependent variable)、 (independent variable)、
被解释变量
(explanatory variable)、 (explained variable)、
结果变量 原因变量
(effect variable);
(causal variable)
10
α、β为参数(parameters),或称回归系数 (regression coefficients); ut通常被称为随机误差项(stochastic error term),或随机扰动项(random disturbance term),简称误差项, 在回归模型中它是不确定的,服从随机分布 (相应的,yt也是不确定的,服从随机分布)。
ln yt ln A lnxt ut
(2.11)
可以看到,模型2.12即为一线性模型。
20
4.估计量(estimator)和估计值(estimate)
估计量是指计算系数的方程;而估计值是指估
计出来的系数的数值。
21
三、最小二乘估计量的性质和分布
(一) 经典线性回归模型的基本假设
ˆ ~ N , var
(2.30) (2.31)
ˆ ~ N , var
30
需要注意的是:如果残差不服从正态分布,即 假设(5)不成立,但只要CLRM的其他假设条件
还成立,且样本容量足够大,则通常认为系数
估计量还是服从正态分布的。
其标准正态分布为:
ˆ- ~N0,1 var
在本课程中,线性回归一词总是对指参数β为 线性的一种回归(即参数只以一次方出现), 对解释变量x则可以是或不是线性的。
19
有些模型看起来不是线性回归,但经过一些基 本代数变换可以转换成线性回归模型。例如,
yt Axt e
ut
(2.10)
可以进行如下变换:
X t lnxt ,则方程 令 Yt ln yt 、 ln A、 (2. 11)变为: (2.12) Yt X t ut
24
(三) OLS估计量的方差、标准差和其概率分布 1.OLS估计量的方差、标准差。 给定假设(1)-(4),估计量的标准差计算方程如 下:
ˆ s SE
x T x x
2 t t
2
s
x T x Tx
2 t 2 t 2
(2.21)
ˆ s SE
(regression equation)或回归模型
(regression model)。
7
图2-1中的直线可表示为
y= x
(2.1)
根据上式,在确定α、β的情况下,给定一个x 值,我们就能够得到一个确定的y值,然而根 据式(2.1)得到的y值与实际的y值存在一个 误差(即图2-1中点到直线的距离)。
x x ˆ u 其中, s 是残差的估计标准差。 T 2
2 t
2 t
1
s
1 2 2 x T x t
(2.22)
25
参数估计量的标准差具有如下的性质: (1)样本容量T越大,参数估计值的标准差越 小;
ˆ 都取决于s2。 s2是残差的方差 (2) ˆ 和SE SE
最小二乘法(OLS) 和线性回归模型
1
要点
最小二乘法的基本原理和计算方法 经典线性回归模型的基本假定
BLUE统计量的性质
t检验和置信区间检验的原理及步骤
多变量模型的回归系数的F检验
预测的类型及评判预测的标准 好模型具有的特征
2
一
最小二乘法的基本属性
一、有关回归的基本介绍
估计量。 s2越大,残差的分布就越分散,这样
模型的不确定性也就越大。如果s2很大,这意
味着估计直线不能很好地拟合散点;
26
2 x x (3)参数估计值的方差与 t 成反比。
其值越小,散点越集中,这样就越难准确地估 计拟合直线;相反,如果 xt x 越大,散点
2
越分散,这样就可以容易地估计出拟合直线, 并且可信度也大得多。 比较图2-2就可以清楚地看到这点。
即:
ˆ ~ ˆ SE
tT 2
(2.34)
ˆ t T 2 (2.35) ~ ˆ SE
32
3.正态分布和t分布的关系
图2-3 正态分布和t分布形状比较
33
从图形上来看,t分布的尾比较厚,均值处 的最大值小于正态分布。 随着t分布自由度的增大,其对应临界值显 著减小,当自由度趋向于无穷时,t分布就服从 标准正态分布了。 所以正态分布可以看作是t分布的一个特例。
wenku.baidu.com
23
ˆ 是包含着 ˆ 、 估计量(estimator):意味着 真实α、β值的估计量;
ˆ 与随机变量y之 线性(linear):意味着 ˆ 、 间是线性函数关系;
无偏(unbiased):意味着平均而言,实际得 ˆ 值与其真实值是一致的; 到的 ˆ、 最优(best):意味着在所有线性无偏估计量 ˆ 具有最小方差。 里,OLS估计量
16
总体回归方程(PRF)表示变量之间的真实关 系,有时也被称为数据生成过程(DGP), PRF中的α、β值是真实值,方程为:
yt xt + u t
(2. 7)
样本回归方程(SRF)是根据所选样本估算的 变量之间的关系函数,方程为:
ˆx ˆ ˆ y t
(2.8)
注意:SRF中没有误差项,根据这一方程得到 的是总体因变量的期望值
8
如果我们以u表示误差,则方程(2.1)变为:
y= x u
即:
(2.2)
(2.3)
yt xt ut
其中t(=1,2,3,…..,T)表示观测数。 式(2.3)即为一个简单的双变量回归模型(因其仅 具有两个变量x, y)的基本形式。
9
其中yt被称作因变量
xt被称作自变量 解释变量
金融、经济变量之间的关系,大体上可以分 为两种:
(1)函数关系:Y=f(X1,X2,….,XP),其中Y的 值是由Xi(i=1,2….p)所唯一确定的。 (2)相关关系: Y=f(X1,X2,….,XP) ,这里Y的 值不能由Xi(i=1,2….p)精确的唯一确定。
3
图2-1 货币供应量和GDP散点图
11
为什么将ut 包含在模型中? (1)有些变量是观测不到的或者是无法度量 的,又或者影响因变量yt的因素太多; (2)在yt的度量过程中会发生偏误,这些偏 误在模型中是表示不出来的; (3)外界随机因素对yt的影响也很难模型化,
比如:恐怖事件、自然灾害、设备故障等。
12
二、参数的最小二乘估计
13
ˆt ,称为拟合值(fitted 直线上的yt值,记为 y ˆt ,称 value),实际值与拟合值的差,记为u 为残差(residual) ,可以看作是随机误差
项u t 的估计值。 根据OLS的基本原则,使直线与各散点的距 离的平方和最小,实际上是使残差平方和T 2 ˆ u (residual sum of squares, 简记RSS) t t 1 最小,即最小化:
27
图2-2 直线拟合和散点集中度的关系
28
2 x (4) t
项只影响截距的标准差,不影响斜率
的标准差。理由是: xt2 衡量的是散点与y轴的
2 距离。 x t 越大,散点离y轴越远,就越难准确
地估计出拟合直线与y轴的交点(即截距); 反之,则相反。
29
2.OLS估计量的概率分布 给定假设条件(5),即u t ~N 0, 2 ,则 yt 也服 从正态分布 系数估计量也是服从正态分布的:
本章所介绍的是普通最小二乘法(ordinary least squares,简记OLS);
最小二乘法的基本原则是:最优拟合直线应该 使各点到直线的距离的和最小,也可表述为距 离的平方和最小。
假定根据这一原理得到的α、β估计值为 、 , ˆx ˆ ˆ yt 。 ˆ 则直线可表示为 t
4
图2-1表示的是我国货币供应量M2(y)与经过 季节调整的GDP(x)之间的关系(数据为
1995年第一季度到2004年第二季度的季度数
据)。
5
但有时候我们想知道当x变化一单位时,y平均 变化多少,可以看到,由于图中所有的点都相
对的集中在图中直线周围,因此我们可以以这
条直线大致代表x与y之间的关系。如果我们能
35
ˆt y yt y = y
2
2
2 ˆ u + t
(2.36)
2 ˆ 是被模型所解释的部分,称为回归平方 y y
和(the explained sum of squares,简记ESS);
(5)ut~N 0, 2 ,即残差项服从正态分布
22
(二)最小二乘估计量的性质 如果满足假设(1)-(4),由最小二乘法得到的估 计量 ˆ 具有一些特性,它们是最优线性无 ˆ 、 偏估计量(Best Linear Unbiased Estimators, 简记BLUE)。
2 ˆ ( y y ) RSS= t = t t 1 T
ˆ x )2 ˆ ( y t t
t 1
T
(2.4)
14
根据最小化的一阶条件,将式2.4分别对、求 偏导,并令其为零,即可求得结果如下 :
x y T xy ˆ x Tx
t t 2 t 2
(2.5) (2.6)
ˆx ˆ y
15
(二)一些基本概念 1.总体(the population)和样本(the sample)
总体是指待研究变量的所有数据集合,可以是 有限的,也可以是无限的;而样本是总体的一 个子集。
2、总体回归方程(the population regression function,简记PRF),样本回归方程(the sample regression function,简记SRF)。
34
二
一元线性回归模型的统计检验
一、拟合优度(goodness of fit statistics)检验
拟合优度可用R2 表示:模型所要解释的
是y相对于其均值的波动性,即 y t y
(总平方和,the total sum of squares,
2
简记TSS),这一平方和可以分成两部分:
够确定这条直线,我们就可以用直线的斜率来
表示当x变化一单位时y的变化程度,由图中的 点确定线的过程就是回归。
6
对于变量间的相关关系,我们可以根据大量的 统计资料,找出它们在数量变化方面的规律 (即“平均”的规律),这种统计规律所揭示 的关系就是回归关系(regressive
relationship),所表示的数学方程就是回归方程
(1)E ut 0 ,即残差具有零均值;
(2)var ut 2<∞,即残差具有常数方差,且对 于所有x值是有限的; (3)cov ui , u j 0 ,即残差项之间在统计意义 上是相互独立的;
(4)covut , xt 0,即残差项与变量x无关;
(2.32)
ˆ ~ N 0,1 var
(2.33)
31
但是,总体回归方程中的系数的真实标准差是 得不到的,只能得到样本的系数标准差
ˆ )。用样本的标准差去替代总体 ( SE ˆ 、 SE
标准差会产生不确定性,并且
ˆ ˆ ˆ 将不再服从正态分布,而 ˆ 、 SE SE 服从自由度为T-2的t分布,其中T为样本容量
17
于是方程(2.7)可以写为:
ˆx u ˆ ˆt yt t
和残差项(
(2.9)
总体y值被分解为两部分:模型拟合值(
ˆt )。 u
ˆ) y
18
3.线性关系 对线性的第一种解释是指:y是x的线性函数, 比如,y= x。 对线性的第二种解释是指:y是参数的一个线 性函数,它可以不是变量x的线性函数。 2 比如,y= x 就是一个线性回归模型, 但 y x 则不是。
(dependent variable)、 (independent variable)、
被解释变量
(explanatory variable)、 (explained variable)、
结果变量 原因变量
(effect variable);
(causal variable)
10
α、β为参数(parameters),或称回归系数 (regression coefficients); ut通常被称为随机误差项(stochastic error term),或随机扰动项(random disturbance term),简称误差项, 在回归模型中它是不确定的,服从随机分布 (相应的,yt也是不确定的,服从随机分布)。
ln yt ln A lnxt ut
(2.11)
可以看到,模型2.12即为一线性模型。
20
4.估计量(estimator)和估计值(estimate)
估计量是指计算系数的方程;而估计值是指估
计出来的系数的数值。
21
三、最小二乘估计量的性质和分布
(一) 经典线性回归模型的基本假设
ˆ ~ N , var
(2.30) (2.31)
ˆ ~ N , var
30
需要注意的是:如果残差不服从正态分布,即 假设(5)不成立,但只要CLRM的其他假设条件
还成立,且样本容量足够大,则通常认为系数
估计量还是服从正态分布的。
其标准正态分布为:
ˆ- ~N0,1 var
在本课程中,线性回归一词总是对指参数β为 线性的一种回归(即参数只以一次方出现), 对解释变量x则可以是或不是线性的。
19
有些模型看起来不是线性回归,但经过一些基 本代数变换可以转换成线性回归模型。例如,
yt Axt e
ut
(2.10)
可以进行如下变换:
X t lnxt ,则方程 令 Yt ln yt 、 ln A、 (2. 11)变为: (2.12) Yt X t ut
24
(三) OLS估计量的方差、标准差和其概率分布 1.OLS估计量的方差、标准差。 给定假设(1)-(4),估计量的标准差计算方程如 下:
ˆ s SE
x T x x
2 t t
2
s
x T x Tx
2 t 2 t 2
(2.21)
ˆ s SE
(regression equation)或回归模型
(regression model)。
7
图2-1中的直线可表示为
y= x
(2.1)
根据上式,在确定α、β的情况下,给定一个x 值,我们就能够得到一个确定的y值,然而根 据式(2.1)得到的y值与实际的y值存在一个 误差(即图2-1中点到直线的距离)。
x x ˆ u 其中, s 是残差的估计标准差。 T 2
2 t
2 t
1
s
1 2 2 x T x t
(2.22)
25
参数估计量的标准差具有如下的性质: (1)样本容量T越大,参数估计值的标准差越 小;
ˆ 都取决于s2。 s2是残差的方差 (2) ˆ 和SE SE
最小二乘法(OLS) 和线性回归模型
1
要点
最小二乘法的基本原理和计算方法 经典线性回归模型的基本假定
BLUE统计量的性质
t检验和置信区间检验的原理及步骤
多变量模型的回归系数的F检验
预测的类型及评判预测的标准 好模型具有的特征
2
一
最小二乘法的基本属性
一、有关回归的基本介绍
估计量。 s2越大,残差的分布就越分散,这样
模型的不确定性也就越大。如果s2很大,这意
味着估计直线不能很好地拟合散点;
26
2 x x (3)参数估计值的方差与 t 成反比。
其值越小,散点越集中,这样就越难准确地估 计拟合直线;相反,如果 xt x 越大,散点
2
越分散,这样就可以容易地估计出拟合直线, 并且可信度也大得多。 比较图2-2就可以清楚地看到这点。
即:
ˆ ~ ˆ SE
tT 2
(2.34)
ˆ t T 2 (2.35) ~ ˆ SE
32
3.正态分布和t分布的关系
图2-3 正态分布和t分布形状比较
33
从图形上来看,t分布的尾比较厚,均值处 的最大值小于正态分布。 随着t分布自由度的增大,其对应临界值显 著减小,当自由度趋向于无穷时,t分布就服从 标准正态分布了。 所以正态分布可以看作是t分布的一个特例。
wenku.baidu.com
23
ˆ 是包含着 ˆ 、 估计量(estimator):意味着 真实α、β值的估计量;
ˆ 与随机变量y之 线性(linear):意味着 ˆ 、 间是线性函数关系;
无偏(unbiased):意味着平均而言,实际得 ˆ 值与其真实值是一致的; 到的 ˆ、 最优(best):意味着在所有线性无偏估计量 ˆ 具有最小方差。 里,OLS估计量
16
总体回归方程(PRF)表示变量之间的真实关 系,有时也被称为数据生成过程(DGP), PRF中的α、β值是真实值,方程为:
yt xt + u t
(2. 7)
样本回归方程(SRF)是根据所选样本估算的 变量之间的关系函数,方程为:
ˆx ˆ ˆ y t
(2.8)
注意:SRF中没有误差项,根据这一方程得到 的是总体因变量的期望值
8
如果我们以u表示误差,则方程(2.1)变为:
y= x u
即:
(2.2)
(2.3)
yt xt ut
其中t(=1,2,3,…..,T)表示观测数。 式(2.3)即为一个简单的双变量回归模型(因其仅 具有两个变量x, y)的基本形式。
9
其中yt被称作因变量
xt被称作自变量 解释变量
金融、经济变量之间的关系,大体上可以分 为两种:
(1)函数关系:Y=f(X1,X2,….,XP),其中Y的 值是由Xi(i=1,2….p)所唯一确定的。 (2)相关关系: Y=f(X1,X2,….,XP) ,这里Y的 值不能由Xi(i=1,2….p)精确的唯一确定。
3
图2-1 货币供应量和GDP散点图
11
为什么将ut 包含在模型中? (1)有些变量是观测不到的或者是无法度量 的,又或者影响因变量yt的因素太多; (2)在yt的度量过程中会发生偏误,这些偏 误在模型中是表示不出来的; (3)外界随机因素对yt的影响也很难模型化,
比如:恐怖事件、自然灾害、设备故障等。
12
二、参数的最小二乘估计
13
ˆt ,称为拟合值(fitted 直线上的yt值,记为 y ˆt ,称 value),实际值与拟合值的差,记为u 为残差(residual) ,可以看作是随机误差
项u t 的估计值。 根据OLS的基本原则,使直线与各散点的距 离的平方和最小,实际上是使残差平方和T 2 ˆ u (residual sum of squares, 简记RSS) t t 1 最小,即最小化:
27
图2-2 直线拟合和散点集中度的关系
28
2 x (4) t
项只影响截距的标准差,不影响斜率
的标准差。理由是: xt2 衡量的是散点与y轴的
2 距离。 x t 越大,散点离y轴越远,就越难准确
地估计出拟合直线与y轴的交点(即截距); 反之,则相反。
29
2.OLS估计量的概率分布 给定假设条件(5),即u t ~N 0, 2 ,则 yt 也服 从正态分布 系数估计量也是服从正态分布的: