《计量经济学及Stata应用》
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
© 陈强,《计量经济学及 Stata 应用》,2014 年。请勿上传或散发。
第 8 章 模型设定与数据问题 如果模型设定(model specification)不当,如解释变量选 择不当、测量误差、函数形式不妥等,则会出现“设定 误差”(specification error)。 数据本身也可能存在问题,比如多重共线性。
n→∞
增大。
8.3 建模策略:“由小到大”还是“由大到小”
“由小到大”(specific to general)的建模方式首先从最简 单的小模型开始,逐渐增加解释变量。但小模型很可能 存在遗漏变量,导致估计量不一致,t 检验、F 检验都将 失效,因此很难确定该如何取舍变量。
与此相反,“由大到小”(general to specific)的建模方式
例 在农学中将地块随机地分成三组(因为很难找到土壤 条件完全一样的地块),分别给予不同的施肥量,然后考 察施肥的效果。
在经济学中,“实验经济学”(experimental economics)所 做的实验基本上属于随机实验。
考虑以下回归模型:
8
y =α + β x + ε
其中, x是完全随机地决定的(比如,通过抛硬币或电 脑随机数)。由于 x与ε 相互独立,故Cov(x,ε ) = 0,因此无 论遗漏了多少解释变量,OLS 都是一致的。
{x2
,
,
xK
}
(即使用老鼠做实验,老鼠之间仍然有差异),
故无法进行严格的控制实验。
当代统计学之父费舍尔(Ronald Fischer)提出了随机实验 的概念。通常将实验人群(或个体)随机地分为两组,其
7
中“实验组”或“处理组”(treatment group)服用真药, 而“控制组”(control group,也称“对照组”)服用“安 慰药”(placebo)。
理实验中,对除 x1以外的因素{x2,, xK }全部控制不变,
单独让 x1变化,然后观察 y 变化的情况。
(2) 随机(控制)实验(randomized controlled experiment):
比如,医学上对新药 x1疗效的实验。由于参加实验者的 体质与生活方式不同,不可能完全控制所有其他因素
由于真实参数γ = 0,故可将模型写为 y =α + β x1 + γ x2 + ε 。
由于 x2 与 y 无关,故 x2 也与 y 的扰动项 ε 无关,即
Cov(x2, ε ) = 0 。 故 OLS 一 致 , 即 plimαˆ = α , plim βˆ = β ,
n→∞
n→∞
11
plimγˆ= γ= 0。但引入无关变量后,估计量βˆ 的方差一般会
第(ii)种方法:随机实验或自然实验。
实验方法是研究因果关系的有力工具。假设我们要研究
变 量 x1 是 否 导 致 y , 以 及 此 因 果 关 系 的 强 弱 。 假 定
{x1,
x2
,
,
xK }包含了所有可能影响
y
的因素。不同学科可
能依条件的不同而采用不同的实验方法,大致可以分为
以下几类。
6
(1) 控制实验(controlled experiment):比如,在理想的物
2
考虑以下两种情形:
(1) 遗漏变量 x2与解释变量 x1不相关,即Cov(x1, x2) = 0。 扰动项u 与解释变量 x1不相关,OLS 依然可一致地估计 β 。由于遗漏变量γ x2被归入扰动项u中,可能增大扰动项 的方差,影响 OLS 估计的精确度。
(2) 遗漏变量 x2与解释变量 x1相关,即Cov(x1, x2) ≠ 0。 OLS 不再一致,称其偏差为“遗漏变量偏差”(omitted variable bias)。
3
存在遗漏变量本身并不要紧;问题的关键是,被遗漏的 变量不能与包括在方程内的解释变量相关。 解决遗漏变量偏差的方法主要有: (i) 加入尽可能多的控制变量(control variable); (ii) 随机实验与自然实验; (iii) 工具变量法; (iv) 使用面板数据;
4
第(i)种方法:列出所有可能对被解释变量有影响的变 量,尽可能去收集数据。
如果有些变量无法获得,则需从理论上说明,遗漏变量 不会与解释变量相关,或相关性很弱。
例 李宏彬等(2012)通过就业调查数据,研究“官二代” 大学毕业生的起薪是否高于非官二代。
由于可能存在遗漏变量,该文包括了尽可能多的控制变 量,比如年龄、性别、城镇户口、父母收入、父母学历、
5
高考成绩、大学成绩、文理科、党员、学生会干部、兼 职实习经历、拥有技术等级证书等。
进一步,由于 x与ε 相互独立,故也满足小样本理论中的 严格外生性假定。因此,OLS 也是无偏的。
(3) 自 然 实 验 或 准 实 验 (natural experiment or quasi experiment):由于某些并非为了实验目的而发生的外部
9
突发事件,使得当事人仿佛被随机地分在了实验组或控 制组。比如,一个州通过了一个法律,但相邻的另一个 州没有通过这一法律。两个州的民众事先并不知道哪个 州会通过这个法律,因此无法进行自我选择住在哪个 州。这样,从考察这个法律的效果而言,可以近似地认 为民众是随机地选择住在哪个州的,或者随机地被分在 了哪个组,即实验组(通过法律)与控制组(没通过法律)。 这种情形被称为“自然实验”或“准实验”。
1
8.1 遗 漏 变 量 假设真实的模型为
y =α + β x1 + γ x2 + ε
其中,解释变量 x1, x2与扰动项ε 不相关,并省略了表示个 体的下标 i,比如 y应为 yi 。而实际估计的模型(estimated model)为
y =α + β x1 + u
则 遗 漏 变 量 (omitted variables) γ x2 被 归 入 新 扰 动 项 =u γ x2 + ε 中。
任何实证研究中几乎总是存在遗漏变量。一篇专业水准 的实证论文几乎总需要说明,它如何在存在遗漏变量的 情况下避免遗漏变量偏差。
10
8.2 无 关 变 量 假设真+ ε
其中,Cov(x1,ε ) = 0。而实际估计的模型为
y =α + β x1 + γ x2 + (ε − γ x2 )
第 8 章 模型设定与数据问题 如果模型设定(model specification)不当,如解释变量选 择不当、测量误差、函数形式不妥等,则会出现“设定 误差”(specification error)。 数据本身也可能存在问题,比如多重共线性。
n→∞
增大。
8.3 建模策略:“由小到大”还是“由大到小”
“由小到大”(specific to general)的建模方式首先从最简 单的小模型开始,逐渐增加解释变量。但小模型很可能 存在遗漏变量,导致估计量不一致,t 检验、F 检验都将 失效,因此很难确定该如何取舍变量。
与此相反,“由大到小”(general to specific)的建模方式
例 在农学中将地块随机地分成三组(因为很难找到土壤 条件完全一样的地块),分别给予不同的施肥量,然后考 察施肥的效果。
在经济学中,“实验经济学”(experimental economics)所 做的实验基本上属于随机实验。
考虑以下回归模型:
8
y =α + β x + ε
其中, x是完全随机地决定的(比如,通过抛硬币或电 脑随机数)。由于 x与ε 相互独立,故Cov(x,ε ) = 0,因此无 论遗漏了多少解释变量,OLS 都是一致的。
{x2
,
,
xK
}
(即使用老鼠做实验,老鼠之间仍然有差异),
故无法进行严格的控制实验。
当代统计学之父费舍尔(Ronald Fischer)提出了随机实验 的概念。通常将实验人群(或个体)随机地分为两组,其
7
中“实验组”或“处理组”(treatment group)服用真药, 而“控制组”(control group,也称“对照组”)服用“安 慰药”(placebo)。
理实验中,对除 x1以外的因素{x2,, xK }全部控制不变,
单独让 x1变化,然后观察 y 变化的情况。
(2) 随机(控制)实验(randomized controlled experiment):
比如,医学上对新药 x1疗效的实验。由于参加实验者的 体质与生活方式不同,不可能完全控制所有其他因素
由于真实参数γ = 0,故可将模型写为 y =α + β x1 + γ x2 + ε 。
由于 x2 与 y 无关,故 x2 也与 y 的扰动项 ε 无关,即
Cov(x2, ε ) = 0 。 故 OLS 一 致 , 即 plimαˆ = α , plim βˆ = β ,
n→∞
n→∞
11
plimγˆ= γ= 0。但引入无关变量后,估计量βˆ 的方差一般会
第(ii)种方法:随机实验或自然实验。
实验方法是研究因果关系的有力工具。假设我们要研究
变 量 x1 是 否 导 致 y , 以 及 此 因 果 关 系 的 强 弱 。 假 定
{x1,
x2
,
,
xK }包含了所有可能影响
y
的因素。不同学科可
能依条件的不同而采用不同的实验方法,大致可以分为
以下几类。
6
(1) 控制实验(controlled experiment):比如,在理想的物
2
考虑以下两种情形:
(1) 遗漏变量 x2与解释变量 x1不相关,即Cov(x1, x2) = 0。 扰动项u 与解释变量 x1不相关,OLS 依然可一致地估计 β 。由于遗漏变量γ x2被归入扰动项u中,可能增大扰动项 的方差,影响 OLS 估计的精确度。
(2) 遗漏变量 x2与解释变量 x1相关,即Cov(x1, x2) ≠ 0。 OLS 不再一致,称其偏差为“遗漏变量偏差”(omitted variable bias)。
3
存在遗漏变量本身并不要紧;问题的关键是,被遗漏的 变量不能与包括在方程内的解释变量相关。 解决遗漏变量偏差的方法主要有: (i) 加入尽可能多的控制变量(control variable); (ii) 随机实验与自然实验; (iii) 工具变量法; (iv) 使用面板数据;
4
第(i)种方法:列出所有可能对被解释变量有影响的变 量,尽可能去收集数据。
如果有些变量无法获得,则需从理论上说明,遗漏变量 不会与解释变量相关,或相关性很弱。
例 李宏彬等(2012)通过就业调查数据,研究“官二代” 大学毕业生的起薪是否高于非官二代。
由于可能存在遗漏变量,该文包括了尽可能多的控制变 量,比如年龄、性别、城镇户口、父母收入、父母学历、
5
高考成绩、大学成绩、文理科、党员、学生会干部、兼 职实习经历、拥有技术等级证书等。
进一步,由于 x与ε 相互独立,故也满足小样本理论中的 严格外生性假定。因此,OLS 也是无偏的。
(3) 自 然 实 验 或 准 实 验 (natural experiment or quasi experiment):由于某些并非为了实验目的而发生的外部
9
突发事件,使得当事人仿佛被随机地分在了实验组或控 制组。比如,一个州通过了一个法律,但相邻的另一个 州没有通过这一法律。两个州的民众事先并不知道哪个 州会通过这个法律,因此无法进行自我选择住在哪个 州。这样,从考察这个法律的效果而言,可以近似地认 为民众是随机地选择住在哪个州的,或者随机地被分在 了哪个组,即实验组(通过法律)与控制组(没通过法律)。 这种情形被称为“自然实验”或“准实验”。
1
8.1 遗 漏 变 量 假设真实的模型为
y =α + β x1 + γ x2 + ε
其中,解释变量 x1, x2与扰动项ε 不相关,并省略了表示个 体的下标 i,比如 y应为 yi 。而实际估计的模型(estimated model)为
y =α + β x1 + u
则 遗 漏 变 量 (omitted variables) γ x2 被 归 入 新 扰 动 项 =u γ x2 + ε 中。
任何实证研究中几乎总是存在遗漏变量。一篇专业水准 的实证论文几乎总需要说明,它如何在存在遗漏变量的 情况下避免遗漏变量偏差。
10
8.2 无 关 变 量 假设真+ ε
其中,Cov(x1,ε ) = 0。而实际估计的模型为
y =α + β x1 + γ x2 + (ε − γ x2 )