第十讲 基于多元回归的评价研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
双向因果关系偏差的解决方法 有两种减缓双向因果关系偏差的方法。 一是利用工具变量回归,二是设计并实 施一项使反向因果关系失效的随机对照 试验。
OLS标准误差非一致的原因
标准误差非一致导致了另一种内部有效性的威 胁,即使OLS估计量一致且样本较大。但标准 误差非一致会使假设检验的水平不同于要求的 显著水平.而且95%的置信区间不能包含真值。 造成标准误差非一致有如下两个主要原因: 1。异方差 2。不同观测间的误差项的相关性
第三步,利用第二步中确定的其他可疑变量改 进基础设定形式并检验其系数为零的假设。如果附 加变量的系数统计显著,或者当加入这个变量后, 感兴趣系数的估计发生相当大的变化,则回归中应 该保留这个变量,于是需要修改基础设定形式。反 之,应该从回归中去掉这些变量。 第四步,用表格形式正确概括结果。这就“完 全揭示”了潜在的疑虑,从中可以得到对感兴趣问 题的结论。同时在同一表中给出其他回归有利于有 疑问的读者得出自己的结论。
用变换后的测试成绩进行回归,则其斜 率系数等于原回归中的斜率系数除以测 试的标准差。因此两数据集中除以测试 成绩标准差后的学生厂教师比的系数具 有可比性。
内部有效性
1。遗漏变量 2。函数形式 3。变量有测量误差 4。抽样 5。双向因果关系 6。异方差和误差相关性
讨论和结论
马萨诸塞州和加利福尼亚州的相似结果表明这些研 究是外部有效的,这里指主要的结果可以推广到美 国其他小学学区的标准化测试成绩中。 通过控制学生背景、家庭经济背景和地区富裕情况 以及检验回归函数中的非线性我们解决了一些内部 有效性的最重要潜在威胁。但仍然存在着内部有效 性的其他潜在威胁。如控制变量没有考虑其他的学 区特征或课外学习机会,最主要的内部有效性威胁 还是遗漏变量偏差。
多元回归分析的内部有效性威胁
一。遗漏变量偏差 1。当遗漏变量可观测时遗漏变量偏差的 解决方法。 并不是加入越多变量越好(会降低精度, 使方差变大),是否要加入该变量取决 于感兴趣的系数估计量偏差和方差之间 的权衡。
方法可以分四步进行: 第一步,在回归中识别出感兴趣的关 键系数。 第二步,运用经济理论和专业知识, 找到这个回归中最有可能的重要遗漏变 量偏差来源。并且应该在建立实际回归 前就加以考虑。由于这发生在分析数据 之前,因此也称为先验推理。
vi 1( Xi Xi) ui
可知,误差项中包含 所以可以得到:如果
Xi Xi Cov( Xi Xi, Xi) 0
则回归结果有偏,非一致 我们假设 则有
Xi Xi i
ˆ 1
p
2
2
x 2 w
x
1
x ˆ 1 2 1 2 x w
利用回归进行预测时的内部和外 部有效性
当利用回归模型进行预测时对外部有效性的 关注就显得非常重要,而对因果效应的无偏 估计关注就不那么重要了。
利用回归模型作预测的有效性评 估
由于负责人的问题和父母的问题非常不同,因此 他们对回归有效性的要求是不同的。为了得到因果 效应的可靠估计,我们必须处理重要概念9.7中概 括的内部有效性的威胁。 反之.如果我们是想得到可靠预测,那么回归估计 必须具有良好的解释能力,其系数必须是准确估计 的,并且必须是平稳的,即基于数据集合的估计得 到的回归对利用其他数据进行的预测是可靠的。当 回归模型被用于预测时,我们非常关注这个模型的 外部有效性,即指模型是稳定的,且数量上适用于 待预测的场合。
马萨诸塞州数据结果: (1)回归中加入控制学生背景特征的变量后, 学生/教师比系数从-1.72缩减到-0.69,缩 小了60%。 (2)即使在回归中加入了控制学生背景和地 区经济特征的变量后,我们在5%显著水平 下还是拒绝了学生/教师比的真实系数为零 的假设。(可能是加利福尼亚州数据集大) (3〕缩小学生/教师比的效应并不是特别依 赖于学区内英语学习者的百分率。 (4) 在5%显著水平下,学生/教师比和测试成绩
分析: 测量数据正确时:假设方程为:
Yi 0 1 Xi ui
当存在测量误差时:方程为:
Yi 0 1 Xi vi
所以我们有:
Yi 0 1 Xi vi 0 1 Xi [ 1( Xi Xi ) ui ]
测试成绩和地区平均收入
马萨诸塞州和加利福尼亚州结果 的比较
加利福尼亚州数据结果: (1)回归中加入控制学生背景特征的变量后, 学生/教师比系数从-2.28缩减到-0.73,缩小 了68%。 (2)即使在回归中加入了控制学生背景和地区 经济特征的变量后,我们在1%显著水平下还 是拒绝了学生/教师比的真实系数为零的假设。 (3〕缩小学生/教师比的效应并不是特别依赖 于学区内英语学习者的百分率。 (4)有证据表明测试成绩和学生/教师比之间的 关系是非线性的。
遗漏变量偏差的数学形式
2。当遗漏变量不可观测时遗漏变量偏差的解 决方法。 第一种方法是利用同一观测个体在不同时 间点上的观测数据(面板数据)。 第二种方法是利用工具变量回归。该方法 依赖于一个称为工具变量的新变量。 第三种方法是利用研究设计,即利用随机 对照试验研究感兴趣的效应。
二。回归函数形式的误设 如果真实的总体回归函数是非线性的而 估计出的回归是线性的,则这种函数形 式误设将会导致OLS估计量有偏。这种 偏差也是一种遗漏变量偏差,其中的遗 漏变量为反映回归函数中缺少的非线性 部分的项。
关系为线性的原假设,在检验中不能被拒绝。
关于回归系数和标准误差的标准 化过程
标准化的回归系数 参数估计量是有量纲的,因此不 能直接比较不同解释变量的相对重 要性。如果要比较不同变量的相对 重要性,可以首先将所有的解释变 量进行标准化,这样便将其转换为 没有量纲的概念了。
ut u u s (ut )
2 p
结论:1。由于
2x 1 2 2 x w
2。回归的性质决定于w的标准差
x p ˆ 1 w 2 1 0 2 x w
2 2 p
x p ˆ 1 w 2 1 1 2 x w
四。样本选择偏差 当数据的获取受与因变量取值有关的抽样过程 影响时就产生了样本选择偏差。这种抽样过程 引入了误差项和回归变量的相关性,从而使 OLS估计量有偏。 1。与因变量取值无关的抽样过程不会引入偏 差。 2。当抽样方法与因变量取值有关时会引入偏 差。
例子: 1。投票选举样本误差。 2。工资对教育的回归估计。 3。股票共同基金。
实例:测试成绩和班级规模
数据集: 加利福尼亚州测试成绩数据 马萨诸塞州测试成绩数据 考察对象:加利福尼亚州测试成绩的若 干回归结果可否用于马萨诸塞州(继而 美国其他公立小学小区)。 即结论是否具有外部有效性。
马萨诸塞州和加利福尼亚州的测试虽然在细节 上有所不同,但它们都衡量了学生的知识和学 习技能。类似的,虽然这两个州在小学资金预 算和课程设置方面有所不同,但它们的课堂教 学组织非常相似(绝大多数美国小学学区都是 这样的)。因此,如果我们发现在加利福尼亚 和马萨诸塞州数据中关于学生/教师比对测试 成绩的影响效应相似,这就表明加利福尼亚州 的研究结果具有外部有效性。反之,如果我们 发现两个州的结果不同,则表明至少有一项研 究的内部或外部有效性有问题。
基于多元回归的评估研究
内部有效性
外部有效性
内部威胁 外部威胁
内部有效性的含义及其威胁
内部有效性: 1。无偏性和一致性。 2。参数显著,置信区间包含参数。 (即参数通过t检验和F检验以及95%的 置信区间包含参数) 内部有效性的威胁: 违反了内部有效性的上述条件。
Hale Waihona Puke Baidu 外部有效性的威胁
1。总体间的差异 2。环境的差异 3。在测试成绩和学生/教师比中的应用 4。如何评估研究的外部有效性 5。如何设计外部有效的研究
五。双向因果关系 之前我们假定因果关系是从回归变量到因 变量的(X导致了Y)。但如果因果关系同时也是 从因变量到一个或多个回归变量(Y导致了X)的 呢?如果是这样的话,因果关系是向前的也是 “向后” 的,即存在双向因果关系,如果存 在双向因果关系,则OLS回归中同时包含了这 两个效应,因此OLS估计量是有偏的、非一致 的。
三。变量有测量误差 由于这种偏差来源于自变量的度量误差 所以称为变量的测量误差偏差。由于这 种偏差即使在大样本下依然存在,因此 当存在测量误差时OLS估计量是非一致 的。
例如: 五年级的测试成绩------十年级的学生/ 教师比。 某些人拒绝透露真实数字。 录入错误,如身高将180cm误录为 1800cm。
2 2 p
变量的测量误差偏差的解决方法 解决变量测量误差问题的最佳方法是获得X的 精确度量。但如果这不可能实现,则可以用计量经 济学方法缓减变量的测量误差偏差。 第一种方法是工具变量回归。它取决于另一个 与真实值Xi相关而与测量误差不相关的变量(工具变 量)。 第二种方法是建立测量误差的数学模型,并且 如果有可能,用得到的公式对误差模型进行修正和 调整,但前提是要求具体了解有关测量误差的性质。
实际操作中,经常使用Ramsey's RESET检验。其基本思想是,如果怀疑 非线性项的高阶项被遗漏了,那么就把 它引入方程,并检验其系数是否显著。
Ramsey检验。 use wage,clear reg lnwage educ exper tenure estat ovtest (拒绝原假设,或许是遗漏了 解释变量的高阶项) gen educ2=educ^2 gen exper2=exper^2 reg lnwage educ exper tenure educ2 exper2 estat ovtest
* t
* t * 0
yt y y s ( yt )
* t
xkt xk x s ( xt )
* kt
, ,,
* 0 * 1
* k
然后利用标准化后的解释变量进行回归,
y x x u
* * 1 1t * * k kt
标准化的回归系数
* t
, ,,
* 0 * 1
* k
消除了量纲,可以直接用于比较不同变量重要性。
自2005年6月考试起,大学英语四、六级考试的原始分 数在经过加权、等值处理后,参照常模转换为均值为 500、标准差为70的常模正态分数。同时,四、六级考 试不设及格线,考试合格证书改为成绩报告单。 四、六级考试报道总分计算公式为:
式中X表示每个考生加权、等值处理后的原始 分数,Mean表示常模均值,SD表示常模标准 差。