计量经济学2
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
估计方法有多种,其种最广泛使用的是普通 最小二乘法(ordinary least squares, OLS)。
为保证参数估计量具有良好的性质,通常 对模型提出若干基本假设。
注:实际这些假设与所采用的估计方法紧密相关。
线性回归模型的基本假设
假设1:解释变量X是确定性变量,不是随
机变量;或者,虽然X是随机变量,但与随机
假设6也被称为模型没有设定偏误 (specification error)
参数的普通最小二乘估计(OLS)
假定对于式2.1,我们得到参数 0 和 1 的 估计值 ˆ0 和 ˆ1 ,则定义 x xi 时 y 的 拟合值为 yˆi,
yˆi ˆ0 ˆ1xi
(2.8)
第i次观测的残差:yi 的实际值和它的拟合
n
n
min uˆi2 min ( yi ˆ0 ˆ1xi )2
i 1
i 1
(2.10)
为什么不直接最 小化残差的和?
这就是为什么 叫作普通最小 二乘法(OLS)
二阶条件满足
一阶导数为0,二阶导数大于0.
一阶条件:
n
n
(2)( yi ˆ0 ˆ1xi ) 0 ( yi ˆ0 ˆ1xi ) 0
值之差,即
uˆi yi yˆi (2.9)
ˆi
y 0 1x u
(2.1)
为了估计参数 使用一个容量为n的随机样本:
{(xi , yi ) : i 1, 2, , n}
yi 0 1xi ui
(2.7)
对于参数的估计值,我们希望它们尽可能 的接近真实值。换言之,希望y的拟合值 和它的实际值之间的差异尽可能的小,则:
i 1
i 1
yi
n i 1
(xi yi )
1 n
n i 1
xi
n i 1
n i 1
xi2
1 n
(
n i 1
xi )2
yi
n
n
(xi yi ) y xi
i 1
i 1
n
n
xi2 x xi
i 1
i 1
n
n
n
n
n
n
(xi yi ) y xi y(nx nx ) (xi yi ) y xi y x yi x
n xi2 ( xi )2
i 1
i 1
ˆ0
1 n
n i 1
yi
ˆ1
n
n i 1
xi
(2.13)
(2.14)
n
令: x 1/ n xi i 1
n
y 1/ n yi i 1
n
n
n
∧ n (xi yi ) xi
1
i 1 n
i1 i1 n
n xi2 ( xi )2
Form 2.5 Expected Values and Variances of the
OLS Estimators 2.6 Regression through the Origin
2.1 Definition of the Simple Regression Model
当我们研究y是如何随x变化时,要考虑几个问题: 除了x以外是否有其他影响y的因素? y和x的函数关系到底是怎样的? 我们是否可以抓住在其他条件不变的情况下y和x 之间的关系?
误差项是不相关的;
假设2:随机误差项具有零均值、同方差
和不序列相关性:
E(i|x)=0
i=1,2, …,n
Var (i|x)=2 i=1,2, …,n
Cov(i, j)=0 i≠j i,j= 1,2, …,n
假设3、随机误差项与解释变量X之间不相
关:
Cov(Xi, i)=0 i=1,2, …,n 假设4、服从零均值、同方差、零协方差
y
f(y)
.
.
E(y|x) = 0 + 1x
x1
x2
2.1.4样本回归函数(SRF)
总体的信息往往无法掌握,现实的情况只 能是在一次观测中得到总体的一个样本。
问题:能从一次抽样中获得总体的近似的 信息吗?如果可以,如何从抽样中获得总体的 近似信息?
[例]在前例的总体中有如下一个样本, 问:能否从该样本估计总体回归函数PRF?
的正态分布
i~N(0, 2 )
i=1,2, …,n
注意:
1、如果假设1、2满足,则假设3也满足 ;
2、以如上果假假设设也4满称足为,线则性假回设归2模也型满的足经。典假 设或高斯(Gauss)假设,满足该假设的线 性回归模型,也称为经典线性回归模型 (Classical Linear Regression Model, CLRM)。
Chapter2 The Simple Regression Model
2.1 Definition of the Simple Regression Model
2.2 Ordinary Least Squares (OLS) 2.3 Properties of OLS on Any Sample of Data 2.4 Units of Measurement and Functional
回答:能
该样本的散点图(scatter diagram):
样本散点图近似于一条直线,画一条直 线以尽好地拟合该散点图,由于样本取自总 体,可以该线近似地代表总体回归线。该线 称为样本回归线(sample regression lines) 。
记样本回归线的函数形式为:
称为样本回归函数(sample regression function,SRF)。
i1
i 1 n
i1
i 1
i 1
n
i 1
xi2 xnx
i 1
xi2 2nx 2 nx 2
回归分析的基本概念
回归分析(regression analysis)是研究一个变量关 于另一个(些)变量的具体依赖关系的计算方法和 理论。
其用意:在于通过后者的已知或设定值,去估计和 (或)预测前者的(总体)均值。
这里:前一个变量被称为被解释变量(Explained Variable)或因变量(Dependent Variable),后一 个(些)变量被称为解释变量(Explanatory Variable)或自变量(Independent Variable)。
因此,给定收入X的值Xi,可得消费支出Y的条件 均值(conditional mean)或条件期望 (conditional expectation): E(Y|X=Xi)
该例中:E(Y|X=800)=605
每 月 消 费 支 出 Y (元)
3500 3000 2500 2000 1500 1000
简单线性回归模型 两变量/双变量线性回归模型
变量间的关系
(1)确定性关系或函数关系:研究的是确定现象非 随机变量间的关系。
(2)统计依赖或相关关系:研究的是非确定现象随 机变量间的关系。
对变量间统计依赖关系的考察主要是通过相关分析或 回归分析来完成的:
▲注意:
①不线性相关并不意味着不相关; ②有相关关系并不意味着一定有因果关系; ③相关分析研究一个变量对另一个(些)变量的统计 依赖关系,但它们并不意味着一定有因果关系。 ④相关分析对称地对待任何(两个)变量,两个变量 都被看作是随机的。回归分析对变量的处理方法存在 不对称性,即区分因变量(被解释变量)和自变量 (解释变量):前者是随机变量,后者不是。
相应的函数:
称为(双变量)总体回归函数(population regression function, PRF)。
E(y|x) as a linear function of x, where for any x the distribution of y is centered about E(y|x)
假设 E(u) 5
则式(2.1)可以写作:
y (0 5) 1x (u 5) u u 5
则有:E(u) E(u 5) 0
习题2.1
A Simple Assumption
2. 零条件均值假定:
E(u x) E(u) 0 (2.4)
对于任何给定的x值,非观测因素的均值 都是相等的——它们必须与整个总体中的 u的均值相等。这意味着,u和x不相关。
2.1.3 population regression function (PRF)
根据零条件均值假定,有:
总体回归函数 这是一个线性函数:x增加一单位,
将使y的期望值改变 之多1
由于变量间关系的随机性,回归分析关心 的是根据解释变量的已知或给定值,考察被 解释变量的总体均值,即当解释变量取某个 确定值时,与之统计相关的被解释变量所有 可能出现的对应值的平均值。
wage 0 1educ u (2.2)
度量了在其他条件不 变的情况下,每增加 一年的教育所获得的
小时工资的增长
包括天生素质、工作 经验、工作时间、工 作道德、及其他无数
因素
2.1.2 A Simple Assumption
1、关于u的假定(非限制性假定) E(u) 0 (2.3)
Why is not a restrictive assumption?
随机误差项主要包括下列因素的影响:
1)在解释变量中被忽略的因素的影响; 2)变量观测值的观测误差的影响; 3)模型关系的设定误差的影响; 4)其它随机因素的影响。
产生并设计随机误差项的主要原因:
1)理论的含糊性; 2)数据的欠缺; 3)节省原则。
Example1: A Simple Wage Equation
i 1
i 1
n
n
(2)xi ( yi ˆ0 ˆ1xi ) 0 xi ( yi ˆ0 ˆ1xi ) 0
i 1
i 1
(2.11) (2.12)
方程组(*)称为正规方程组(normal equations)。
可得:
n
n
n
n (xi yi ) xi yi
ˆ1
i 1 n
i1 i1 n
除了x之外影响y的其它因素
2.1.1 Some Terminology
因变量 被解释变量 响应变量 被预测变量 回归子
自变量 解释变量 控制变量 预测元 回归元
误差项 扰动项
如果我们假设其他因素保持不变,则 u 的变化为0.
即,u 0
那么, y 1x
1 :斜率参数;0 :截距参数
主要关注
次要关注
Questions:
假定期末考试的分数(score)决定于出勤 率(attend)和影响考试成绩的其他非观 测因素:
那么这个模型能满足零条件均值假定吗?
Example1(continue)
wage 0 1educ u (2.5)
为了简单起见,假定u为个人的天生能力
E(abil 9) E(abil 16)
500 0 500
1000
1500 2000 2500 3000 每月可支配收入X(元)
3500
4000
描出散点图发现:随着收入的增加,消费“平 均地说”也在增加,且Y的条件均值均落在一根正 斜率的直线上。这条直线称为总体回归线。
▲概念:
在给定解释变量Xi条件下被解释变量Yi的 期望轨迹称为总体回归线(population regression line),或更一般地称为总体回归 曲线(population regression curve)。
▼回归分析的主要目的:根据样本回归函 数SRF,估计总体回归函数PRF。
这就要求:设计一“方法”构造SRF,以使
SRF尽可能“接近”PRF,或者说使
尽可能接近
。
注意:这里PRF可能永远无法知道。
2.2 Ordinary Least Squares (OLS) 2.2.1 普通最小二乘法的推导
回归分析的主要目的是要通过样本回归 函数(模型)SRF尽可能准确地估计总体回 归函数(模型)PRF。
另外,在进行模型回归时,还有两个暗含的假设:
假设5:随着样本容量的无限增加,解释 变量X的样本方差趋于一有限常数。即
假设6:回归模型是正确设定的
假设5旨在排除数据出现持续上升或下降 的变量作为解释变量,因为这类数据不仅使 大样本统计推断变得无效,而且往往产生所 谓的伪回归问题(spurious regression problem)。
[例]一个假想的社区有100户家庭组成,要 研究该社区每月家庭消费支出Y与每月家庭 可支配收入X的关系。
即如果知道了家庭的月收入,能否预测该社 区家庭的平均月消费支出水平。
为达到此目的,将该100户家庭划分为组内 收入差不多的10组,以分析每一收入组的家庭 消费支出。
▲分析:
(1)由于不确定因素的影响,对同一收入水平X, 不同家庭的消费支出不完全相同; (2)由于调查的完备性,给定收入水平X的消费支 出Y的分布是确定的,即以X的给定值为条件的Y的 条件分布(Conditional distribution)是已知的,如 :P(Y=561|X=800)=1/4。
为保证参数估计量具有良好的性质,通常 对模型提出若干基本假设。
注:实际这些假设与所采用的估计方法紧密相关。
线性回归模型的基本假设
假设1:解释变量X是确定性变量,不是随
机变量;或者,虽然X是随机变量,但与随机
假设6也被称为模型没有设定偏误 (specification error)
参数的普通最小二乘估计(OLS)
假定对于式2.1,我们得到参数 0 和 1 的 估计值 ˆ0 和 ˆ1 ,则定义 x xi 时 y 的 拟合值为 yˆi,
yˆi ˆ0 ˆ1xi
(2.8)
第i次观测的残差:yi 的实际值和它的拟合
n
n
min uˆi2 min ( yi ˆ0 ˆ1xi )2
i 1
i 1
(2.10)
为什么不直接最 小化残差的和?
这就是为什么 叫作普通最小 二乘法(OLS)
二阶条件满足
一阶导数为0,二阶导数大于0.
一阶条件:
n
n
(2)( yi ˆ0 ˆ1xi ) 0 ( yi ˆ0 ˆ1xi ) 0
值之差,即
uˆi yi yˆi (2.9)
ˆi
y 0 1x u
(2.1)
为了估计参数 使用一个容量为n的随机样本:
{(xi , yi ) : i 1, 2, , n}
yi 0 1xi ui
(2.7)
对于参数的估计值,我们希望它们尽可能 的接近真实值。换言之,希望y的拟合值 和它的实际值之间的差异尽可能的小,则:
i 1
i 1
yi
n i 1
(xi yi )
1 n
n i 1
xi
n i 1
n i 1
xi2
1 n
(
n i 1
xi )2
yi
n
n
(xi yi ) y xi
i 1
i 1
n
n
xi2 x xi
i 1
i 1
n
n
n
n
n
n
(xi yi ) y xi y(nx nx ) (xi yi ) y xi y x yi x
n xi2 ( xi )2
i 1
i 1
ˆ0
1 n
n i 1
yi
ˆ1
n
n i 1
xi
(2.13)
(2.14)
n
令: x 1/ n xi i 1
n
y 1/ n yi i 1
n
n
n
∧ n (xi yi ) xi
1
i 1 n
i1 i1 n
n xi2 ( xi )2
Form 2.5 Expected Values and Variances of the
OLS Estimators 2.6 Regression through the Origin
2.1 Definition of the Simple Regression Model
当我们研究y是如何随x变化时,要考虑几个问题: 除了x以外是否有其他影响y的因素? y和x的函数关系到底是怎样的? 我们是否可以抓住在其他条件不变的情况下y和x 之间的关系?
误差项是不相关的;
假设2:随机误差项具有零均值、同方差
和不序列相关性:
E(i|x)=0
i=1,2, …,n
Var (i|x)=2 i=1,2, …,n
Cov(i, j)=0 i≠j i,j= 1,2, …,n
假设3、随机误差项与解释变量X之间不相
关:
Cov(Xi, i)=0 i=1,2, …,n 假设4、服从零均值、同方差、零协方差
y
f(y)
.
.
E(y|x) = 0 + 1x
x1
x2
2.1.4样本回归函数(SRF)
总体的信息往往无法掌握,现实的情况只 能是在一次观测中得到总体的一个样本。
问题:能从一次抽样中获得总体的近似的 信息吗?如果可以,如何从抽样中获得总体的 近似信息?
[例]在前例的总体中有如下一个样本, 问:能否从该样本估计总体回归函数PRF?
的正态分布
i~N(0, 2 )
i=1,2, …,n
注意:
1、如果假设1、2满足,则假设3也满足 ;
2、以如上果假假设设也4满称足为,线则性假回设归2模也型满的足经。典假 设或高斯(Gauss)假设,满足该假设的线 性回归模型,也称为经典线性回归模型 (Classical Linear Regression Model, CLRM)。
Chapter2 The Simple Regression Model
2.1 Definition of the Simple Regression Model
2.2 Ordinary Least Squares (OLS) 2.3 Properties of OLS on Any Sample of Data 2.4 Units of Measurement and Functional
回答:能
该样本的散点图(scatter diagram):
样本散点图近似于一条直线,画一条直 线以尽好地拟合该散点图,由于样本取自总 体,可以该线近似地代表总体回归线。该线 称为样本回归线(sample regression lines) 。
记样本回归线的函数形式为:
称为样本回归函数(sample regression function,SRF)。
i1
i 1 n
i1
i 1
i 1
n
i 1
xi2 xnx
i 1
xi2 2nx 2 nx 2
回归分析的基本概念
回归分析(regression analysis)是研究一个变量关 于另一个(些)变量的具体依赖关系的计算方法和 理论。
其用意:在于通过后者的已知或设定值,去估计和 (或)预测前者的(总体)均值。
这里:前一个变量被称为被解释变量(Explained Variable)或因变量(Dependent Variable),后一 个(些)变量被称为解释变量(Explanatory Variable)或自变量(Independent Variable)。
因此,给定收入X的值Xi,可得消费支出Y的条件 均值(conditional mean)或条件期望 (conditional expectation): E(Y|X=Xi)
该例中:E(Y|X=800)=605
每 月 消 费 支 出 Y (元)
3500 3000 2500 2000 1500 1000
简单线性回归模型 两变量/双变量线性回归模型
变量间的关系
(1)确定性关系或函数关系:研究的是确定现象非 随机变量间的关系。
(2)统计依赖或相关关系:研究的是非确定现象随 机变量间的关系。
对变量间统计依赖关系的考察主要是通过相关分析或 回归分析来完成的:
▲注意:
①不线性相关并不意味着不相关; ②有相关关系并不意味着一定有因果关系; ③相关分析研究一个变量对另一个(些)变量的统计 依赖关系,但它们并不意味着一定有因果关系。 ④相关分析对称地对待任何(两个)变量,两个变量 都被看作是随机的。回归分析对变量的处理方法存在 不对称性,即区分因变量(被解释变量)和自变量 (解释变量):前者是随机变量,后者不是。
相应的函数:
称为(双变量)总体回归函数(population regression function, PRF)。
E(y|x) as a linear function of x, where for any x the distribution of y is centered about E(y|x)
假设 E(u) 5
则式(2.1)可以写作:
y (0 5) 1x (u 5) u u 5
则有:E(u) E(u 5) 0
习题2.1
A Simple Assumption
2. 零条件均值假定:
E(u x) E(u) 0 (2.4)
对于任何给定的x值,非观测因素的均值 都是相等的——它们必须与整个总体中的 u的均值相等。这意味着,u和x不相关。
2.1.3 population regression function (PRF)
根据零条件均值假定,有:
总体回归函数 这是一个线性函数:x增加一单位,
将使y的期望值改变 之多1
由于变量间关系的随机性,回归分析关心 的是根据解释变量的已知或给定值,考察被 解释变量的总体均值,即当解释变量取某个 确定值时,与之统计相关的被解释变量所有 可能出现的对应值的平均值。
wage 0 1educ u (2.2)
度量了在其他条件不 变的情况下,每增加 一年的教育所获得的
小时工资的增长
包括天生素质、工作 经验、工作时间、工 作道德、及其他无数
因素
2.1.2 A Simple Assumption
1、关于u的假定(非限制性假定) E(u) 0 (2.3)
Why is not a restrictive assumption?
随机误差项主要包括下列因素的影响:
1)在解释变量中被忽略的因素的影响; 2)变量观测值的观测误差的影响; 3)模型关系的设定误差的影响; 4)其它随机因素的影响。
产生并设计随机误差项的主要原因:
1)理论的含糊性; 2)数据的欠缺; 3)节省原则。
Example1: A Simple Wage Equation
i 1
i 1
n
n
(2)xi ( yi ˆ0 ˆ1xi ) 0 xi ( yi ˆ0 ˆ1xi ) 0
i 1
i 1
(2.11) (2.12)
方程组(*)称为正规方程组(normal equations)。
可得:
n
n
n
n (xi yi ) xi yi
ˆ1
i 1 n
i1 i1 n
除了x之外影响y的其它因素
2.1.1 Some Terminology
因变量 被解释变量 响应变量 被预测变量 回归子
自变量 解释变量 控制变量 预测元 回归元
误差项 扰动项
如果我们假设其他因素保持不变,则 u 的变化为0.
即,u 0
那么, y 1x
1 :斜率参数;0 :截距参数
主要关注
次要关注
Questions:
假定期末考试的分数(score)决定于出勤 率(attend)和影响考试成绩的其他非观 测因素:
那么这个模型能满足零条件均值假定吗?
Example1(continue)
wage 0 1educ u (2.5)
为了简单起见,假定u为个人的天生能力
E(abil 9) E(abil 16)
500 0 500
1000
1500 2000 2500 3000 每月可支配收入X(元)
3500
4000
描出散点图发现:随着收入的增加,消费“平 均地说”也在增加,且Y的条件均值均落在一根正 斜率的直线上。这条直线称为总体回归线。
▲概念:
在给定解释变量Xi条件下被解释变量Yi的 期望轨迹称为总体回归线(population regression line),或更一般地称为总体回归 曲线(population regression curve)。
▼回归分析的主要目的:根据样本回归函 数SRF,估计总体回归函数PRF。
这就要求:设计一“方法”构造SRF,以使
SRF尽可能“接近”PRF,或者说使
尽可能接近
。
注意:这里PRF可能永远无法知道。
2.2 Ordinary Least Squares (OLS) 2.2.1 普通最小二乘法的推导
回归分析的主要目的是要通过样本回归 函数(模型)SRF尽可能准确地估计总体回 归函数(模型)PRF。
另外,在进行模型回归时,还有两个暗含的假设:
假设5:随着样本容量的无限增加,解释 变量X的样本方差趋于一有限常数。即
假设6:回归模型是正确设定的
假设5旨在排除数据出现持续上升或下降 的变量作为解释变量,因为这类数据不仅使 大样本统计推断变得无效,而且往往产生所 谓的伪回归问题(spurious regression problem)。
[例]一个假想的社区有100户家庭组成,要 研究该社区每月家庭消费支出Y与每月家庭 可支配收入X的关系。
即如果知道了家庭的月收入,能否预测该社 区家庭的平均月消费支出水平。
为达到此目的,将该100户家庭划分为组内 收入差不多的10组,以分析每一收入组的家庭 消费支出。
▲分析:
(1)由于不确定因素的影响,对同一收入水平X, 不同家庭的消费支出不完全相同; (2)由于调查的完备性,给定收入水平X的消费支 出Y的分布是确定的,即以X的给定值为条件的Y的 条件分布(Conditional distribution)是已知的,如 :P(Y=561|X=800)=1/4。