斯托克计量经济学课件 (5)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
21
STATA中的多元回归
reg testscr str pctel, robust; Regression with robust standard errors Number of obs F( 2, 417) Prob > F R-squared Root MSE = = = = = 420 223.82 0.0000 0.4264 14.464
18
前: 后: 差: 于是::
Y = 0 + 1X1 + 2X2 Y + Y = 0 + 1(X1 + X1) + 2X2 Y = 1X1
Y 1 = , 固定 X2 不变 X 1
Y 2 = , 固定 X1 不变 X 2
0 = 当 X1 = X2 = 0 时 Y 的预测值.
TestScore = 686.0 – 1.10STR – 0.65PctEL
其他输出结果后面将会讨论…
22
多元线性回归模型和OLS估计量的矩阵形式(见书第18章)
多元回归模型的矩阵形式 设总体多元回归模型为
Yi 0 1 X 1i 2 X 2i k X ki ui , i 1, , n
12
随机对照 试验: 随机化 + 对照组意味着处理组和对照组之间的任何差异 是随机的 ,与处理没有系统关联 我们可以通过比较具有相同 PctEL 学区中的班级规模效 应消除大(对照)和小(处理)组之间 PctEL 的差异 如果大和小班级规模组之间的唯一系统性差异存在于 PctEL 中, 则我们回到随机对照试验中,在每一个 PctEL 组中. 当估计 STR 效应时,这是唯一一种“控制” PctEL 效应 的方法.

后果 ˆ 是有偏的. 这一偏差的方向是怎样的?(以例1说明) 1
按常识可给出什么样的提示?
若你无法通过常识得出, 则有公式…
5
遗漏变量偏差的公式
回顾公式,
1 n ( X i X )u i vi n i 1 i 1 ˆ = 1 – 1 = n n 1 2 2 (Xi X ) sX n i 1 其中 vi = (Xi – X )ui (Xi – X)ui. 在最小二乘假设 1 下,
其中小标 i 表示 n 个观测中的第 i 个观测, 是存在两个回归变量 X 1i 和 X 2i 时的总体多元回归模型(population multiple regression model)。
16
术语
考虑两个回归变量的情形: Yi = 0 + 1X1i + 2X2i + ui, i = 1,…,n Y 为因变量 X1, X2 为两个自变量 (回归变量、控制变量) (Yi, X1i, X2i) 表示 Y, X1, 和 X2 的 ith 个观测. 0 = 未知总体截距(常数项) 1 = 固定 X2 不变情况下, X1 变化一个单位对 Y 的效应(Y 的期 望变化) 2 = 固定 X1 不变情况下, X2 变化一个单位对 Y 的效应(Y 的期 望变化) ui = 回归误差 (遗漏因素) 同方差和异方差
19
6.3 多元回归的OLS 估计量
以二元回归变量为例 两个回归变量时的 OLS 估计量是下式的解:
min b0 ,b1 ,b2 [Yi (b0 b1 X 1i b2 X 2i )]2
i 1
n
OLS 估计量使 Yi 的真值与基于回归线估计的预测值之差的 平均平方和最小. 该最小化问题可通过微积分求解 由此得0 和 1 的 OLS 估计量. OLS 在多元回归模型中的理解和运用同一元情形
13
三种方法克服遗漏变量偏差
1. 实施一随机对照试验,其中处理 (STR) 是被随机分配的: 此时 PctEL 仍然是 TestScore 的一个决定因素, 但是 PctEL 与 STR 不相关. (但这在实践中不现实.) 2. 采用“交叉制表” 的方法, 更精细等级的 STR 和 PctEL—— 在每一组中, 所有班级具有相同的 PctEL, 于是我们控制了 PctEL (但很快数据用完了, 那么其他诸如家庭收入和父母 教育状况的决定因素要怎么办?) 3. 采用再也不漏掉遗漏变量 (PctEL) 的回归:将 PctEL 作为 多元回归中的附加回归变量.
E[(Xi – X)ui] = cov(Xi,ui) = 0. 但如果 E[(Xi – X)ui] = cov(Xi,ui) = Xu ≠ 0,那会怎样?
n
6
遗漏变量偏差公式( 续)
一般情况下 (也就是说,即便假设 #1 不成立),
1 n ( X i X )u i n i 1 ˆ 1 – 1 = 1 n 2 ( X X ) i n i 1 p Xu 2 X
p
(1) 是 Y 的一个决定因素 (即包含在 u 中); 并且 (2) 与 X 相关,
ˆ 有偏 (且非一致). 则 Xu 0 且 OLS 估计量 1 上述数学推导准确指出有较少学习英语的学生的学区 (1) 在标准化测试中表现更好,且 (2) 有较小的班级 (较多的 预算), 因此遗漏这个因素将夸大班级规模的效应.
u Xu u = = Xu , X X u X 其中 Xu = corr(X,u). 如果假设 #1 为真, 则 Xu = 0, 但如果不
是,那么我们有….
7
遗漏变量偏差公式:
u ˆ Xu 1 1 + X 如果遗漏因素 Z 满足以下 2 个条件:
17
多元回归中系数的解释
Yi = 0 + 1X1i + 2X2i + ui, i = 1,…,n 考虑 X2 固定不变时, X1 变化 X1 的情况: 变化前总体回归线为: Y = 0 + 1X1 + 2X2 变化后总体回归线为: Y + Y = 0 + 1(X1 + X1) + 2X2
4

举例说明这些条件
例1:英语学习者百分率 在测试成绩实例中: (1)英语学习能力 (学生是否将英语作为第二语言) 貌似会 影响标准化测试成绩 : Z 是 Y的决定因素. (2)移民社区往往不那么富裕,因此学校预算少,并且 STR 也较高: Z 与X相关. 例2: 测试的时间 例3: 每个学生的停车空间
14
6.2 多元回归模型
多元回归模型(multiple regression model)推广了第 4 和第 5 章中的一元回归模型,在模型中加入了其它变量作为回归变量。 下面以二元回归为例。 总体回归线 现假定只有两个自变量 X 和 X 。在多元线性回归模型中,这两个 自变量与因变量 Y 的平均关系可表为如下线性函数: E(Yi | X 1i x1 , X 2i x2 ) 0 1 x1 2 x2 (*) 其中 E(Yi | X 1i x1 , X 2i x2 ) 为给定 X 1i x1 和 X 2i x2 时 Yi 的条件期望。也 就是当第 i 个学区的生师比( X 1i )等于某个值 x1 且该学区内英语 学习者百分比( X 2i )等于 x2 时, Yi 的期望值可表为(*)式。称 为多元回归模型的总体回归线(population regression line)或总体 回归函数(population regression function)。
20
实例: 加利福尼亚测试成绩数据集
TestScore 针对 STR 的回归:
TestScore = 698.9 – 2.28STR
现加入学区中英语学习者百分率 (PctEL):
TestScore = 686.0 – 1.10STR – 0.65PctEL
STR 的系数发生了什么变化? 为什么? (记住: corr(STR, PctEL) = 0.19)
-----------------------------------------------------------------------------| Robust testscr | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------str | -1.101296 .4328472 -2.54 0.011 -1.95213 -.2504616 pctel | -.6497768 .0310318 -20.94 0.000 -.710775 -.5887786 _cons | 686.0322 8.728224 78.60 0.000 668.8754 703.189 ------------------------------------------------------------------------------
我们想要估计什么? 回顾 准确点讲,什么是因果效应? 就我们的分析目的而言,因果效应的常理定义不够精确. 在这门课程中, 我们将因果效应定义为在理想化随机对照 试验中度量的效应.
10
理想化随机对照试验

理想化的: 试验对象都服从处理协议 – 完全遵守, 报告时没有出
错,等等!

随机化的: 来自感兴趣总体的试验对象被随机分配到处理组或
在加利福尼亚数据集中确实发了这种情况吗?
8
具有较少英语学习者的学区往往具有较高的测试成绩 具有较少英语学习者百分率(PctEL)的学区往往具有较小 的班级 在 PctEL 相当的学区中,班级规模的效应较小 (记住:整体的 “测试成绩差距” = 7.4) 怎么处理遗漏变量偏差?
9
寻求克服遗漏变量偏差的方法
1i 2i
15
总体多元回归模型 (*)式是总体内 Y 和 X 1 , X 2 间平均而言成立的关系。 同一元回归的情况,除了 X 1i 和 X 2i 外那些决定 Yi 的因素被作为 “误差”项 u i 加入到(*)式中有
Yi 0 1 X 1i 2 X 2i ui , i 1,, n
者对照组 (所以不存在混合效应)

对照的: 有对照组可以用来衡量处理的效应之差
来自百度文库
试验: 分配处理是试验的一部分:试验对象没有选择, 所以不存
在 “反向的因果效应”,即试验对象选择他们认为对他们最好 的处理.
11
回到班级规模实例中:
设想:降低 STR 对测试成绩效应的理想化随机对照试验… 我们的观测数据跟这个理想化状态有何区别? 处理不是被随机分配的 考虑学区内的 PctEL – 英语学习者百分率. 貌似满足遗漏 变量偏差的 2 个标准: Z = PctEL 满足: 1. Y 的一个决定因素; 并且 2. 与回归变量 X 相关. “对照” 和 “处理” 组之间存在系统差异 , {corr(STR,PctEL) 0}
第6章
多元线性回归
第六章 多元线性回归Multiple regression


遗漏变量偏差Omitted variable bias
因果效应和回归分析 多元回归和OLS 拟合优度Measures of fit OLS估计量的抽样分布
2
6.1 遗漏变量偏差
遗漏变量总是存在的 u 产生于那些影响 Y 但没有被包含在回归方程中的因素 存在遗漏变量的后果是什么 在某些时候, 遗漏这些变量会导致 OLS 估计量有偏.(非 一致估计量)
3
△ 遗漏变量偏差
⊕ 定义 遗漏变量导致的 OLS 估计量的偏差被称为遗漏变量偏差. ⊕ 导致遗漏变量偏差的条件 遗漏因素 “Z” 必须满足: 1. 2. Y 的决定因素 (即 Z 是 u 中的一部分); 并且 与回归变量 X 相关 (即 corr(Z,X) 0)
两个条件都必须成立遗漏 Z 才会导致遗漏变量偏差.
相关文档
最新文档