第二讲 经典回归模型
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
i =1 i =1 i =1
n
n
n
2 sx
= β1 +
∑ ( xi − x )ui
Biblioteka Baidui =1
2 sx
= β1 +
∑d u
i =1
n
i i
2 sx
ˆ ) = β + E[ i =1 所以, E ( β 1 1
∑d u
2 sx
n
i i
2 2 ] = β1 + (1/ sx )∑ E (d i ui ) = β1 + (1/ sx )∑ d i E (ui ) = β1
i =1 i =1
n
n
而由 y = β 0 + β1 x + u 得,
ˆ x = (β + β x + u ) − β ˆ x = β + (β − β ˆ )x + u ˆ = y −β β 0 1 0 1 1 0 1 1 ˆ ) x ] + E (u ) = β + E[( β − β ˆ )]x + E (u ) = β ˆ ) = β + E[( β − β 那么, E ( β 0 0 1 1 0 1 1 0
f (ε i | x1 , x 2 ,..., x n ) 是给定 x1 , x 2 ,..., x n 下 ε i 的条件分布, ε i 的条件期望通常就是 x1 , x 2 ,..., x n 的
非线性函数,严格外生性假定要求这个条件期望值函数等于常数 0。 为什么回归模型多数包含常数项?
~ 如果设 E (ε i | x1 , x 2 ,..., x n ) = µ , 回归方程可改写为 y i = β 1 + µ + β 2 x i + ε i − µ , 令 β1 = β1 + µ ,
CON i = β 1 + β 2 YD i + ε i
(2.1)
如果可得数据是时序的宏观数据, 例如年度总量数据, CON 是消费量,YD 是可支配收入。 那么 CON i 和 YDi 就是第 i 年的总消费和总可支配收入, (2.1)就为时序模型;如果数据是横 截面上的微观数据,例如家庭普查,那么 CON i 和 YDi 就是 n 个家庭的横截面样本的家庭消 费和可支配收入, (2.1) 就为横截面模型。 误差项表示可支配收入外的其他影响消费的变量, 这些变量包括研究者不纳入回归量的可观测的变量, 例如金融资产; 也包括消费者情绪等难 以测度的变量。注意,基于不同数据集建立起来的模型,虽然看似都在研究消费和收入的关 系,但是问题的性质和目的可能已经发生变化。 线性假定指的是关于待估系数的线性化;它并不要求初始模型都呈现上述的严格线性关系, 自变量与因变量可以通过变量变换而转换成关于待估系数的线性模型。 此时古典线性模型对 参数的估计过程仍然适用,但是参数的经济含意已经发生变化。 例 2.2(Ex2.10)设定一个简单的工资方程:
i
2
> 0。
定理 2.1(OLS 的无偏性) 的无偏性)
ˆ ) = β 且 E (β ˆ)=β 利用假定 SLR.1~SLR.4,我们有 E ( β 0 0 1 1 ˆ 对 β 是无偏的, β ˆ 对 β 是无偏的。 对 β 0 和 β1 的任何值都成立。换言之, β 0 1 0 1
2 证明: 证明:在证明中,期望值是以自变量的样本值为条件的。因为 s x 和 d i 是 x 的函数,所
4
= 0, ∀i, j 。
Chuanglian CHEN @ Copyright, Econometrics, 2012
E (ε i | x j ) = E[ E (ε i | x1 ,..., x n ) | x j ] = 0 E ( x j ε i ) = E[ E ( x j ε i | x j )] = E[ x j E (ε i | x j )] = 0
Chuanglian CHEN @ Copyright, Econometrics, 2012
第二讲 经典回归模型
陈创练 博士, Feb, 2012 http://chuanglian.weebly.com/
摘要: 摘要:通过简单回归模型来研究两个变量的关系。随着学习的深入,我们将会知道简单回归 模型作为一般计量分析工具的局限性, 但是这一章对简单回归模型的解释将为下一章多元回 归模型的学习打下很好的基础。介绍回归模型涉及的术语;简单古典线性回归模型的假定。 OLS 的有限样本性质;简单的统计推断。 主要参考文献: 主要参考文献 : Wooldridge 的 chapter1/chapter2. Johnston 的 p15~p37,p44~p52;
2
Chuanglian CHEN @ Copyright, Econometrics, 2012
二、经典回归模型
1. 简单回归模型的定义
y = β 0 + β1 x + u ⇒ ∆u = 0 ,那么, ∆y = β1∆x (线性影响)
零条件均值假定(zero conditional mean assumption) : E (u x) = E (u ) = 0 1 所以, E ( y x) = β 0 + β1 x ,总体回归函数(population regression function, PRF) 。 2. 简单古典线性回归模型的假定 假定 SLR.1(参数的线性性) :在总体模型中,因变量 y 与自变量 x 以及误差(干扰) u 的 参数的线性性) : 关系如下: y = β 0 + β1 x + u 式中, β 0 和 β1 分别为总体的截距和斜率参数。 被解释变量(因变量 解释变量(自变量 y i 表示被解释变量 被解释变量 因变量) 因变量 Y 的第 i 次观测值, x i 表示解释变量 解释变量 自变量) 自变量 X 的第 i 次观察值; β j ( j = 1,2) 是未知的待估参数,通常称为回归系数 回归系数,简称系数 系数; 回归系数 系数 ε i 是无法观测 的满足一定限制条件的扰动项 扰动项,它表示解释变量无法解释的剩余部分。 扰动项 例 2.1 设定一个简单消费函数
~ = ε − µ ,此时 E (ε ~ | x , x ,..., x ) = 0 。 ε i i i 1 2 n
严格外生性的含义:
1)扰动项的无条件期望等于 0;即 E (ε i )
=0。
E (ε i ) = E[ E (ε i | x1 ,..., x n )] = 0
2)每次观察期的回归量与误差项不相关;即 Cov( x j , ε i )
以它们在条件中是非随机的。因此,
ˆ = β 1
∑ ( xi − x ) yi
i =1 n
n
∑ (x − x )
i =1 i n
=
∑ ( xi − x )(β0 + β1 xi + ui )
i =1
n
2
2 sx
=
β 0 ∑ ( xi − x ) + β1 ∑ ( xi − x ) xi + ∑ ( xi − x )ui
综上我们建立的 OLS 是无偏性。 (如果 SLR.3 成立,OLS 估计量是无偏的,反之,是有偏的)
5
Chuanglian CHEN @ Copyright, Econometrics, 2012
OLS 估计量的方差 假定 SLR.5(同方差性( ) : Var (u x) = σ 。2 同方差性(homoskedasticity)
计量经济学研究的步骤 实际问题 ⇒ 问题的表述 ⇒ 数据的收集 ⇒ 计量经济模型的选择 ⇒ 经验分析 ⇒ 回答 实际问题 可阅读《计量经济学入门》或者 woodrige 的 chapter1.2 本章首先简单阐述计量经济学的应用问题;涉及两个例子 例 2.1 (消费函数) 简单的提问:消费是否会受到收入的影响? 如何衡量消费和收入,如何得到数据? 数据的处理(数据的质量,数据的转换) 例 2.2 (工资方程) 简单的提问:是不是接受教育的年限越高,工资就会越高呢? 最常见的计量经济模型就是线性模型, 通常也是我们做计量研究的起始点。 下面用简单古典 线性回归模型研究上述两个的问题。建立计量模型,就要给出一定的假设,只有在这些假设 成立之下,估计量才有好的性质,才能是真实系数值的恰当估计。
一、什么是计量经济学? 什么是计量经济学?
观点 1,用收集到的经济数据验证经济理论模型的正确性(主要是宏观经济理论) ,即为经 济理论找到事实根据。 观点 2,寻找最为适当的经济模型去概括相关的经济数据,以回答特定的实际经济问题。 这些问题可以来源于宏观经济学、国际经济学、微观经济学、金融学以及市场营销学、会计 学等。对这些问题的回答有助于人们更好理解现实生活中所观察的现象;对预测未来形势、 修正当前的政策和提出新的战略。 数理统计与计量经济学 计量经济学是从统计学发展起来的一门学科,两者的区别主要在于经济学中遇到的大 部分数据都是非实验性数据。 因果关系和 ceteris paribus 应用计量学的一个目标就是研究变量间是否存在因果关系。 ceteris paribus 的意思是“其他(相关)因素相等”,它在计量的因果分析中起重要作用。研究 X 是否是 Y 的原因等价研究 X 的 ceteris paribus 效应;可表达为“在其他(相关)因素相等 下,X 的变动对 Y 的影响如何”。 因果关系和理想随机控制实验 “随机控制实验”就是随机地设定一个处理组和一个控制组(没有受到处理) ,这使得处理组 和控制组的系统性差异仅仅体现在是否受过处理上。 理想随机控制实验能够很好地揭示因果 关系。 只要随机实验规模足够大,那么随机控制实验就能给出处理是否是我们关心的结果的原因。 然而,在经济学研究中很少能进行随机控制实验。 例 1 施肥对庄稼收成的影响 实验性数据与非实验性数据
Wage 是工资率, Edu 是接受教育年限;只要 y i = ln(Wage i ) ,该方程就满足线性假定。只有
被解释变量取对数形式,则称该方程为半对数形式。注意, Edu 的边际效应不是 β 2 ,而是
β 2Wage i
非线性形式 线性模型 边际效应 弹性
当然也存在无法线性化的非线性关系。 关于假定 1 的讨论阅读 Jonston 的 2.2 节 “变量转换”和 2.3 节的例子;Woodrige 的 chapter2.4 假定 SLR.2 (随机抽样) : 在随机模型中随机抽取的样本容量为 n ,{( xi , yi ) : i = 1, 2,K n} 。 随机抽样) 假定 SLR.3(零条件均值, : E (u x ) = 0 。 零条件均值,严格外生性) 严格外生性) 对于任意的观测 期 i ,如果 f (ε i , x1 , x 2 ,..., x n ) 是 n + 1 个随机变量的联合分布 ,
1
如果只是定义 u 与 x 不相关, 但是 u 却可能与 x 的函数比如 x 相关, 所以, 采用了给定 给定 x 时 u 的期望。 的期望 3
2
Chuanglian CHEN @ Copyright, Econometrics, 2012
Wagei = e β + β Edu +ε
1 2 i
i
ln(Wage i ) = β 1 + β 2 Edu i + ε i
Cov( x j , ε i ) = E ( x j ε i ) − E ( x j ) E (ε i ) = 0
假定 SLR.4(自变量的样本有变异) 自变量的样本有变异) :在样本中, : xi (i = 1, 2,K , n) 不为相同的常数。这要求 样本中的 x 要有一些变异。也即
∑ (x − x )
2
Var (u x ) = E (u 2 x) − [ E (u x )]2 = E (u 2 x ) = σ 2
1
Chuanglian CHEN @ Copyright, Econometrics, 2012
从实验得到的数据称为实验性数据,它是研究人员通过实验设计主动得到的。 非实验数据是研究人员被动地收集得到,因此有时也称“观察数据”。这种“观察数据”通常不 具有从随机控制实验得来的数据的特性,也就是说,是否受过处理不是随机的,它可能和其 他因素相关, 那么在研究因果效应时就很难区别出到底是处理引起结果还是其他因素引起结 果。计量经济学就是研究在“观察数据”下的因果关系,或称 ceteris paribus 效应。 例 2 教育的回报 可阅读 Wooldridge 的 chapter1 数据类型 横截面数据 时序数据 面板数据
n
n
n
2 sx
= β1 +
∑ ( xi − x )ui
Biblioteka Baidui =1
2 sx
= β1 +
∑d u
i =1
n
i i
2 sx
ˆ ) = β + E[ i =1 所以, E ( β 1 1
∑d u
2 sx
n
i i
2 2 ] = β1 + (1/ sx )∑ E (d i ui ) = β1 + (1/ sx )∑ d i E (ui ) = β1
i =1 i =1
n
n
而由 y = β 0 + β1 x + u 得,
ˆ x = (β + β x + u ) − β ˆ x = β + (β − β ˆ )x + u ˆ = y −β β 0 1 0 1 1 0 1 1 ˆ ) x ] + E (u ) = β + E[( β − β ˆ )]x + E (u ) = β ˆ ) = β + E[( β − β 那么, E ( β 0 0 1 1 0 1 1 0
f (ε i | x1 , x 2 ,..., x n ) 是给定 x1 , x 2 ,..., x n 下 ε i 的条件分布, ε i 的条件期望通常就是 x1 , x 2 ,..., x n 的
非线性函数,严格外生性假定要求这个条件期望值函数等于常数 0。 为什么回归模型多数包含常数项?
~ 如果设 E (ε i | x1 , x 2 ,..., x n ) = µ , 回归方程可改写为 y i = β 1 + µ + β 2 x i + ε i − µ , 令 β1 = β1 + µ ,
CON i = β 1 + β 2 YD i + ε i
(2.1)
如果可得数据是时序的宏观数据, 例如年度总量数据, CON 是消费量,YD 是可支配收入。 那么 CON i 和 YDi 就是第 i 年的总消费和总可支配收入, (2.1)就为时序模型;如果数据是横 截面上的微观数据,例如家庭普查,那么 CON i 和 YDi 就是 n 个家庭的横截面样本的家庭消 费和可支配收入, (2.1) 就为横截面模型。 误差项表示可支配收入外的其他影响消费的变量, 这些变量包括研究者不纳入回归量的可观测的变量, 例如金融资产; 也包括消费者情绪等难 以测度的变量。注意,基于不同数据集建立起来的模型,虽然看似都在研究消费和收入的关 系,但是问题的性质和目的可能已经发生变化。 线性假定指的是关于待估系数的线性化;它并不要求初始模型都呈现上述的严格线性关系, 自变量与因变量可以通过变量变换而转换成关于待估系数的线性模型。 此时古典线性模型对 参数的估计过程仍然适用,但是参数的经济含意已经发生变化。 例 2.2(Ex2.10)设定一个简单的工资方程:
i
2
> 0。
定理 2.1(OLS 的无偏性) 的无偏性)
ˆ ) = β 且 E (β ˆ)=β 利用假定 SLR.1~SLR.4,我们有 E ( β 0 0 1 1 ˆ 对 β 是无偏的, β ˆ 对 β 是无偏的。 对 β 0 和 β1 的任何值都成立。换言之, β 0 1 0 1
2 证明: 证明:在证明中,期望值是以自变量的样本值为条件的。因为 s x 和 d i 是 x 的函数,所
4
= 0, ∀i, j 。
Chuanglian CHEN @ Copyright, Econometrics, 2012
E (ε i | x j ) = E[ E (ε i | x1 ,..., x n ) | x j ] = 0 E ( x j ε i ) = E[ E ( x j ε i | x j )] = E[ x j E (ε i | x j )] = 0
Chuanglian CHEN @ Copyright, Econometrics, 2012
第二讲 经典回归模型
陈创练 博士, Feb, 2012 http://chuanglian.weebly.com/
摘要: 摘要:通过简单回归模型来研究两个变量的关系。随着学习的深入,我们将会知道简单回归 模型作为一般计量分析工具的局限性, 但是这一章对简单回归模型的解释将为下一章多元回 归模型的学习打下很好的基础。介绍回归模型涉及的术语;简单古典线性回归模型的假定。 OLS 的有限样本性质;简单的统计推断。 主要参考文献: 主要参考文献 : Wooldridge 的 chapter1/chapter2. Johnston 的 p15~p37,p44~p52;
2
Chuanglian CHEN @ Copyright, Econometrics, 2012
二、经典回归模型
1. 简单回归模型的定义
y = β 0 + β1 x + u ⇒ ∆u = 0 ,那么, ∆y = β1∆x (线性影响)
零条件均值假定(zero conditional mean assumption) : E (u x) = E (u ) = 0 1 所以, E ( y x) = β 0 + β1 x ,总体回归函数(population regression function, PRF) 。 2. 简单古典线性回归模型的假定 假定 SLR.1(参数的线性性) :在总体模型中,因变量 y 与自变量 x 以及误差(干扰) u 的 参数的线性性) : 关系如下: y = β 0 + β1 x + u 式中, β 0 和 β1 分别为总体的截距和斜率参数。 被解释变量(因变量 解释变量(自变量 y i 表示被解释变量 被解释变量 因变量) 因变量 Y 的第 i 次观测值, x i 表示解释变量 解释变量 自变量) 自变量 X 的第 i 次观察值; β j ( j = 1,2) 是未知的待估参数,通常称为回归系数 回归系数,简称系数 系数; 回归系数 系数 ε i 是无法观测 的满足一定限制条件的扰动项 扰动项,它表示解释变量无法解释的剩余部分。 扰动项 例 2.1 设定一个简单消费函数
~ = ε − µ ,此时 E (ε ~ | x , x ,..., x ) = 0 。 ε i i i 1 2 n
严格外生性的含义:
1)扰动项的无条件期望等于 0;即 E (ε i )
=0。
E (ε i ) = E[ E (ε i | x1 ,..., x n )] = 0
2)每次观察期的回归量与误差项不相关;即 Cov( x j , ε i )
以它们在条件中是非随机的。因此,
ˆ = β 1
∑ ( xi − x ) yi
i =1 n
n
∑ (x − x )
i =1 i n
=
∑ ( xi − x )(β0 + β1 xi + ui )
i =1
n
2
2 sx
=
β 0 ∑ ( xi − x ) + β1 ∑ ( xi − x ) xi + ∑ ( xi − x )ui
综上我们建立的 OLS 是无偏性。 (如果 SLR.3 成立,OLS 估计量是无偏的,反之,是有偏的)
5
Chuanglian CHEN @ Copyright, Econometrics, 2012
OLS 估计量的方差 假定 SLR.5(同方差性( ) : Var (u x) = σ 。2 同方差性(homoskedasticity)
计量经济学研究的步骤 实际问题 ⇒ 问题的表述 ⇒ 数据的收集 ⇒ 计量经济模型的选择 ⇒ 经验分析 ⇒ 回答 实际问题 可阅读《计量经济学入门》或者 woodrige 的 chapter1.2 本章首先简单阐述计量经济学的应用问题;涉及两个例子 例 2.1 (消费函数) 简单的提问:消费是否会受到收入的影响? 如何衡量消费和收入,如何得到数据? 数据的处理(数据的质量,数据的转换) 例 2.2 (工资方程) 简单的提问:是不是接受教育的年限越高,工资就会越高呢? 最常见的计量经济模型就是线性模型, 通常也是我们做计量研究的起始点。 下面用简单古典 线性回归模型研究上述两个的问题。建立计量模型,就要给出一定的假设,只有在这些假设 成立之下,估计量才有好的性质,才能是真实系数值的恰当估计。
一、什么是计量经济学? 什么是计量经济学?
观点 1,用收集到的经济数据验证经济理论模型的正确性(主要是宏观经济理论) ,即为经 济理论找到事实根据。 观点 2,寻找最为适当的经济模型去概括相关的经济数据,以回答特定的实际经济问题。 这些问题可以来源于宏观经济学、国际经济学、微观经济学、金融学以及市场营销学、会计 学等。对这些问题的回答有助于人们更好理解现实生活中所观察的现象;对预测未来形势、 修正当前的政策和提出新的战略。 数理统计与计量经济学 计量经济学是从统计学发展起来的一门学科,两者的区别主要在于经济学中遇到的大 部分数据都是非实验性数据。 因果关系和 ceteris paribus 应用计量学的一个目标就是研究变量间是否存在因果关系。 ceteris paribus 的意思是“其他(相关)因素相等”,它在计量的因果分析中起重要作用。研究 X 是否是 Y 的原因等价研究 X 的 ceteris paribus 效应;可表达为“在其他(相关)因素相等 下,X 的变动对 Y 的影响如何”。 因果关系和理想随机控制实验 “随机控制实验”就是随机地设定一个处理组和一个控制组(没有受到处理) ,这使得处理组 和控制组的系统性差异仅仅体现在是否受过处理上。 理想随机控制实验能够很好地揭示因果 关系。 只要随机实验规模足够大,那么随机控制实验就能给出处理是否是我们关心的结果的原因。 然而,在经济学研究中很少能进行随机控制实验。 例 1 施肥对庄稼收成的影响 实验性数据与非实验性数据
Wage 是工资率, Edu 是接受教育年限;只要 y i = ln(Wage i ) ,该方程就满足线性假定。只有
被解释变量取对数形式,则称该方程为半对数形式。注意, Edu 的边际效应不是 β 2 ,而是
β 2Wage i
非线性形式 线性模型 边际效应 弹性
当然也存在无法线性化的非线性关系。 关于假定 1 的讨论阅读 Jonston 的 2.2 节 “变量转换”和 2.3 节的例子;Woodrige 的 chapter2.4 假定 SLR.2 (随机抽样) : 在随机模型中随机抽取的样本容量为 n ,{( xi , yi ) : i = 1, 2,K n} 。 随机抽样) 假定 SLR.3(零条件均值, : E (u x ) = 0 。 零条件均值,严格外生性) 严格外生性) 对于任意的观测 期 i ,如果 f (ε i , x1 , x 2 ,..., x n ) 是 n + 1 个随机变量的联合分布 ,
1
如果只是定义 u 与 x 不相关, 但是 u 却可能与 x 的函数比如 x 相关, 所以, 采用了给定 给定 x 时 u 的期望。 的期望 3
2
Chuanglian CHEN @ Copyright, Econometrics, 2012
Wagei = e β + β Edu +ε
1 2 i
i
ln(Wage i ) = β 1 + β 2 Edu i + ε i
Cov( x j , ε i ) = E ( x j ε i ) − E ( x j ) E (ε i ) = 0
假定 SLR.4(自变量的样本有变异) 自变量的样本有变异) :在样本中, : xi (i = 1, 2,K , n) 不为相同的常数。这要求 样本中的 x 要有一些变异。也即
∑ (x − x )
2
Var (u x ) = E (u 2 x) − [ E (u x )]2 = E (u 2 x ) = σ 2
1
Chuanglian CHEN @ Copyright, Econometrics, 2012
从实验得到的数据称为实验性数据,它是研究人员通过实验设计主动得到的。 非实验数据是研究人员被动地收集得到,因此有时也称“观察数据”。这种“观察数据”通常不 具有从随机控制实验得来的数据的特性,也就是说,是否受过处理不是随机的,它可能和其 他因素相关, 那么在研究因果效应时就很难区别出到底是处理引起结果还是其他因素引起结 果。计量经济学就是研究在“观察数据”下的因果关系,或称 ceteris paribus 效应。 例 2 教育的回报 可阅读 Wooldridge 的 chapter1 数据类型 横截面数据 时序数据 面板数据