模型设定与数据问题

合集下载

第9章 模型设定和数据问题的

第9章 模型设定和数据问题的

9.4 数据缺失、非随机样本和异常观测值
本节讨论数据问题,测量误差问题可看成一个数 据问题,而解释变量之间的多重共线性也是数据 问题。我们集中于违反MLR.2假定的数据问题。 数据缺失(missing data):如果一个观测缺失其 因变量或一个自变量的数据,此观测不能用于回 归分析,软件包会简单忽略此观测,由此减少了 可用的样本容量,数据缺失还有其他什么影响? 取决于数据缺失的原因,如果是随机缺失,不会 违反假定MLR.2,对估计不会有实质影响。
对上方程进行OLS估计得到的估计量,称为遗漏变量问 题的植入解。什么情况下此解是一致的? * (1)误差u与 x1 , x2 , x3 , x3 不相关,这不是很有争议 (2)误差v3与 x1 , x2 , x3 不相关,这意味着:
E v3 x1 , x2 , x3 E x3* 0 3 x3 x1 , x2 , x3 E x3* x1 , x2 , x3 0 3 x3 0 E x3* x1 , x2 , x3 0 3 x3 E x3* x3
9.2对观测不到的解释变量使用代理变量
* x , x 此等式要求,一旦控制了 3 3 的期望值与 x1 , x2无关,这
是一个“好的”代理变量的要求,在工资方程中,这要求 能力的平均水平只随IQ变化,而不随educ和exper变化, 这合理吗?或者IQ是能力的一个好的代理变量吗?例9.3 如果代理变量不符合上述要求,使用代理变量仍将导致偏误, 我们有理由希望,此偏误比完全忽略遗漏变量时要小 用滞后因变量作为代理变量:如何得到遗漏变量的代理变 量在许多情形下是困难的,我们可以将滞后的因变量包括 进来加以控制。这种做法的认识是,不同时期的因变量受 到相同遗漏变量的影响,滞后因变量在一定程度上可作为 代理变量,同时惯性影响也是引入滞后因变量的原因之一。 这种思想也是利用panel data解决遗漏变量问题的基础。 例9.4

模型与数据的关系

模型与数据的关系

模型与数据1988年,巴塞尔委员会正式发布资本协议,之后资本协议的变迁反映了西方商业银行及监管机构推崇风险计量的过程。

采用一种“搭积木”的方式,银行将不同类型的风险采用同一种标准进行度量,然后将度量的结果进行累加,得到总的风险承担数量,并依此设定监管资本数量。

这种度量至少在形式上是“科学”的,与国内银行传统意义上的管理决策“艺术”相比,选择的天平毫无疑问正在向前者倾斜。

风险度量技术的发展,客观上重塑了西方商业银行的业务版图,由此带来的冲击,中国的商业银行已经有所体验。

2008年,银监会正式公布了中国商业银行实施新资本协议的路线图。

实际上,国内商业银行在风险度量技术上的探索已经走过了不短的时间。

上世纪90年代,风险计量技术还更多见之于学术领域。

但从99年起,国内商业银行就开始了第一代客户评级技术的探索,并很快在评级、授信等领域得到应用。

银监会推行新资本协议的决定对银行风险度量技术的发展起到了加速作用,近几年来,以工、农、中、建、交、招等大型银行为代表,风险模型技术和实践有了质的突破。

在风险管理中,模型的使用建立在几个前提条件上:一是“历史会重演”,这意味着可以从历史规律中寻找出可重复的模式,并以此预测违约事件是否会发生。

如果历史不会重演,模型也失去了意义。

(对历史是否会重演的探讨)。

二是模型方法的局限性,模型能否判别客户好坏、准确性是否可靠、是否稳定等。

最重要的,是数据是否准确。

有了好的数据,不一定能建立好的模型;但如果差的数据,是一定建立不了准确的模型的。

理论上,风险度量模型的建立要依赖于长期积累的高质量的数据。

但在实践中一般是不具备这个条件的。

中国商业银行的信息系统建设、业务管理模式在近二十年中处于巨变过程,在90年代初期,银行甚至没有统一的会计账务体系,依赖总账传输的模式才能汇总产生全行资产负债表,客户明细信息的汇总无从谈起;到95年开始,银行才逐步建立了适应统一法人管理体系的账务系统、信贷管理信息系统。

第9章 模型设定和数据问题的深入探讨

第9章 模型设定和数据问题的深入探讨
( 1) lph2 = 0 ( 2) lph3 = 0 F( 2, 82) = 2.57 Prob > F = 0.0831
我们在5%置信水平不能拒绝9.5式
使用RESET的注意事项
• RESET在探测非线性形式的函数误设时很好用,而不是 一般的遗漏变量 • Wooldridge在1995年证明:当被遗漏变量的期望值是所 包含自变量的线性函数时,RESET无法探测出遗漏变量 问题 • 尽管如此,如果被遗漏变量的期望是自变量的非线性形式 时,一个显著的RESET可以指出遗漏变量问题 • 也要注意到,RESET检验的一个缺陷是,当零假设被拒 绝后,它并不能建议我们下一步怎么做
非嵌套检验注意问题
• 不一定会出现一个明显好的模型。两个模 型可能都被拒绝,也可能没有一个被拒绝 在后一种情形:我们可以用调整R2来判断 前一种情形:如果关键自变量对y的影响没 有多大差异,使用哪个模型实际上并不紧 要 • 如果用DM检验拒绝了9.7,这并不意味着 9.6就是正确的模型,模型9.7可能因多种误 设定的函数形式而被拒绝
Std. Err. .0403502 .0122401 .0094352 .008812 .0144397 .0003% Conf. Interval] -.2123546 -.0353185 -.0064785 -.0581206 -.0788538 -.0021566 .2374508 .1160469 .4980048 -.0541141 .0126831 .0305233 -.0235627 -.0222258 -.0008207 .4155561 .2717818 .6393661
对非嵌套模型的检验
• 下面哪一个模型更好?
(9.6) y = β 0 + β1 log( x1 ) + β 2 log( x2 ) + u

伍德里奇《计量经济学导论》(第5版)笔记和课后习题详解-第9章 模型设定和数据问题的深入探讨【圣才出

伍德里奇《计量经济学导论》(第5版)笔记和课后习题详解-第9章 模型设定和数据问题的深入探讨【圣才出

(c)
来检验模型
y 0 1x1 2 x2 u
(d)
或者把这两个模型反过来。然而,它们是非嵌套模型,所以不能仅使用标准的 F 检验。
(1)综合模型的 F 检验
构造一个综合模型,将每个模型都作为一个特殊情形而包含其中,然后检验导致每个模
型的约束。在目前的例子中,综合模型为:
y 0 1x1 2 x2 3 log x1 4 log x2 u
y 0 1x1 2 x2 3 x3 u
但有 x3 的一个代理变量,并称之为 x3
x3 0 3 x3 v3
其中,v3 是因 x3 与 x3 并非完全相关所导致的误差。参数 3 度量了 x3 与 x3 之间的关系。 x3 和 x3 正相关,所以 δ3 0 。如果 δ3 0 ,则 x3 不是 x3 合适的代理变量。截距 δ0 ,是容许 x3
圣才电子书 十万种考研考证电子书、题库视频学习平台

第 9 章 模型设定和数据问题的深入探讨
9.1 复习笔记
一、函数形式设误 1.函数形式设误的概念 遗漏一个关键变量能导致误差与某些解释变量之间的相关,从而通常导致所有的 OLS 估计量都是偏误和不一致的。在遗漏的变量是模型中一个解释变量的函数的特殊情形下,模 型就存在函数形式误设的问题。遗漏自变量的函数并不是模型出现函数形式误设的唯一方 式。
②用戴维森—麦金农检验拒绝了式(d),这并不意味着式(c)就是正确的模型。模型 (d)可能会因多种误设的函数形式而被拒绝。
③在比较因变量不同那么就不能得到上面的综合嵌套模型。
二、对无法观测解释变量使用代理变量 1.代理变量 代理变量就是某种与我们在分析中试图控制而又无法观测的变量相关的东西。例如,人 的能力无法观测,可以使用 IQ 得分作为能力的一个代理变量。 (1)遗漏变量问题的植入解 假设在有 3 个自变量的模型中,其中有两个自变量是可以观测的,解释变量 x3 观测不 到:

伍德里奇《计量经济学导论》(第6版)复习笔记和课后习题详解-模型设定和数据问题的深入探讨【圣才出品】

伍德里奇《计量经济学导论》(第6版)复习笔记和课后习题详解-模型设定和数据问题的深入探讨【圣才出品】

第9章模型设定和数据问题的深入探讨9.1复习笔记考点一:函数形式设误检验(见表9-1)★★★★表9-1函数形式设误检验考点二:对无法观测解释变量使用代理变量★★★1.代理变量代理变量就是某种与分析中试图控制而又无法观测的变量相关的变量。

(1)遗漏变量问题的植入解假设在有3个自变量的模型中,其中有两个自变量是可以观测的,解释变量x3*观测不到:y=β0+β1x1+β2x2+β3x3*+u。

但有x3*的一个代理变量,即x3,有x3*=δ0+δ3x3+v3。

其中,x3*和x3正相关,所以δ3>0;截距δ0容许x3*和x3以不同的尺度来度量。

假设x3就是x3*,做y对x1,x2,x3的回归,从而利用x3得到β1和β2的无偏(或至少是一致)估计量。

在做OLS之前,只是用x3取代了x3*,所以称之为遗漏变量问题的植入解。

代理变量也可以以二值信息的形式出现。

(2)植入解能得到一致估计量所需的假定(见表9-2)表9-2植入解能得到一致估计量所需的假定2.用滞后因变量作为代理变量对于想要控制无法观测的因素,可以选择滞后因变量作为代理变量,这种方法适用于政策分析。

但是现期的差异很难用其他方法解释。

使用滞后被解释变量不是控制遗漏变量的唯一方法,但是这种方法适用于估计政策变量。

考点三:随机斜率模型★★★1.随机斜率模型的定义如果一个变量的偏效应取决于那些随着总体单位的不同而不同的无法观测因素,且只有一个解释变量x,就可以把这个一般模型写成:y i=a i+b i x i。

上式中的模型有时被称为随机系数模型或随机斜率模型。

对于上式模型,记a i=a+c i和b i=β+d i,则有E(c i)=0和E(d i)=0,代入模型得y i=a+βx i+u i,其中,u i=c i+d i x i。

2.保证OLS无偏(一致性)的条件(1)简单回归当u i=c i+d i x i时,无偏的充分条件就是E(c i|x i)=E(c i)=0和E(d i|x i)=E(d i)=0。

计量经济学-9

计量经济学-9
该方程OLS回归得到的参数估计是否一致取决于对测量误差e0的假定。 一般来说,我们假定e0与解释变量不相关,与原方程的随机误差项u 也不相关,这样得到的所有参数估计都是一致的。唯一的影响是:
2 2 2 Var (v e0 ) u 0 u,即误差方差比没有测量误差时更大,也导致
函数形式误设的一般检验(RESET) 基本思想:如果原模型y 0 1 x1 2 x2 L k xk u 满足假定(u∣x) 0 E 那么,在方程中添加自变量的非线性关系应该是不显著的。 不过,当解释变量很多时,添加自变量的平方和立方项会产生更多的 解释变量,损失了很大一部分自由度。一般会在模型中添加被解释变量 ˆ ˆ 的预测值的平方y 2及立方y 3: ˆ ˆ y 0 1 x1 2 x2 L k xk 1 y 2 2 y 3 u 检验H 0:1 0, 2 0 F 统计量渐近服从F2,nk 3分布。显著的F 统计量表明存在某种函数形式问题
(2)经典的含误差变量(CEV)假定:cov(x1 , e1 )=0 2 2 2 x1 x1 e1, cov( x1 , e1 ) E ( x1e1 ) E ( x1 e1 ) E (e1 ) 0 e1 e1 ,
自变量与测量误差肯定相关,因此自变量与合成误差u 1e1也必然
因变量测量误差问题 假设模型:y 0 1 x1 L k xk u,满足CLRM 假定 y是对y 观测到的度量,它们之间的误差为:e0 y y , 可估计的模型变成:y 0 1 x1 L k xk u e0 , 随机误差项变成了u e0
自变量测量误差问题
考虑一个简单回归模型:y 0 1 x1 u,假设满足CLRM 假定, 则参数估计是无偏的和一致的,但是x1 观测不到,我们只能观测到x1, 它们之间存在着一个测量误差:e1 x1 x1 假定E(e1 )=0,u与x1和x1 都不相关,此时将x1取代x1 放入原方程进行OLS

第9 章 模型设定与数据问题

第9 章 模型设定与数据问题

教学用PPT ,《高级计量经济学及Stata 应用》,陈强编著,高等教育出版社,© 2010年第9章 模型设定与数据问题9.1遗漏变量假设真实模型为,1122ββε′′=++i i i i y x x (9.1)其中,12,x x 可以是向量,且与扰动项ε不相关。

而实际估计的模型为,11β′=+i i i y x u (9.2)遗漏变量22β′i x 进入新扰动项22i i i u x βε′=+。

考虑两种情形。

(1)遗漏变量2i x 与解释变量1i x 不相关,即12Cov(,)0i i x x =,则,OLS 依然一致。

(2)遗漏变量2i x 与解释变量1i x 相关,即12Cov(,)0≠i i x x ,则,OLS 不再是一致估计,其偏差被称为“遗漏变量偏差”。

解决遗漏变量偏差的主要方法有, (i )加入尽可能多的控制变量 (ii )使用“代理变量” (iii )工具变量法(第10章) (iv )使用面板数据(第11, 12章)(v)随机实验与自然实验(第15章)当控制变量不可得时,可以考虑第(ii)种方法“代理变量法”。

比如,在教育投资回归中,可以使用智商(IQ)来作为个人能力的代理变量。

理想的代理变量应满足,(1)多余性:即代理变量仅通过影响遗漏变量而作用于被解释变量。

比如,“智商”仅通过对“能力”的作用来影响工资收入。

假如有“能力”的数据,再引入“智商”作为解释变量就是多余。

(2)遗漏变量中不受代理变量影响的剩余部分与所有解释变量均不相关。

命题如果上述两个条件满足,则使用代理变量能获得一致估计。

9.2无关变量假设真实模型为,11i i i y x βε′=+ (9.3)其中,1Cov(,)0i i x ε=。

而实际估计的模型为,N 1122220()i i i i i y x x x ββεβ=′′′=++− (9.4)其中,加入了无关变量2′i x 。

由于真实参数20β=,故可将模型写为1122i i i i y x x ββε′′=++,即扰动项仍是原来的i ε。

统计师如何进行数据模型建立和

统计师如何进行数据模型建立和

统计师如何进行数据模型建立和分析数据模型是统计师在工作中常用的一种技术工具。

通过数据模型的搭建和分析,统计师可以更好地理解和解释数据背后的规律,为决策提供科学依据。

本文将介绍统计师如何进行数据模型建立和分析的方法和步骤。

一、确定研究目标和问题在进行数据模型建立和分析之前,统计师首先需要明确研究的目标和问题。

这包括确定要研究的变量、数据来源、分析的角度和目的等。

例如,如果要研究某产品的销售情况,目标可能是找出销售量与哪些因素相关,问题可能是如何预测未来的销售趋势。

二、数据收集和预处理数据模型的建立离不开有效的数据。

统计师需要收集与研究目标相关的数据,可以通过调查问卷、实地观察、数据库查询等方式获取。

在收集到数据后,还需要进行数据的预处理,包括数据清洗、数据变换、缺失值处理等。

预处理的目的是保证数据的准确性和一致性,为后续的统计分析做好准备。

三、选择合适的模型根据研究目标和问题,统计师需要选择合适的数据模型来进行分析。

常用的数据模型包括回归分析、时间序列分析、因子分析等。

不同的模型适用于不同的问题和数据类型,统计师需要根据实际情况来选择合适的模型。

在选择模型时,还需要考虑模型的复杂度、解释能力和预测精度等指标。

四、模型的建立和验证在确定了模型之后,统计师需要根据已有的数据来建立模型。

这包括确定模型的参数和拟合方法,利用最小二乘法等技术来估计参数的值。

建立模型后,还需要对模型进行验证和评估。

这可以通过残差分析、模型的拟合程度等指标来判断模型的质量和可靠性。

五、模型的分析和应用在完成了模型的建立和验证之后,统计师可以利用模型来进行进一步的分析和应用。

这包括对模型的参数进行解释和理解,通过模型来预测未来的趋势,进行灵敏度分析等。

模型的分析和应用可以帮助统计师更好地理解和解释数据,为决策提供科学依据。

六、模型的优化和改进数据模型建立和分析是一个动态的过程,统计师需要不断地对模型进行优化和改进。

这可以通过增加更多的变量、改进模型的参数估计方法、引入更复杂的模型等方式来实现。

建模与数据分析利用数据驱动的方法进行和分析

建模与数据分析利用数据驱动的方法进行和分析

建模与数据分析利用数据驱动的方法进行和分析建模与数据分析:利用数据驱动的方法进行建模和分析在当今数字化时代,数据被广泛应用于各行各业。

建模与数据分析作为其中的重要一环,通过利用数据驱动的方法,帮助我们更好地理解问题、预测趋势和做出决策。

本文将探讨建模与数据分析的基本原理和常用方法,并详细介绍如何运用这些方法进行数据驱动的建模和分析。

一、数据驱动的建模1. 数据收集与准备在进行建模与数据分析之前,首先需要收集相关数据并进行准备。

数据可以来自于各种渠道,如传感器、数据库、互联网等。

在收集数据时,需要注意数据的准确性和完整性,并进行清洗和预处理,以确保数据的质量。

2. 数据探索与可视化数据探索是建模的第一步,它通过对数据的可视化和统计分析,帮助我们了解数据的特征和分布。

常用的数据探索方法包括统计指标分析、数据可视化、相关性分析等。

通过数据探索,我们可以根据数据的特点选择适合的建模方法。

3. 特征工程特征工程是建模的关键环节之一。

通过对原始数据进行特征提取和特征选择,将数据转化为具有更好判别能力的特征。

常用的特征工程方法有主成分分析(PCA)、因子分析、特征选择等。

良好的特征工程能够提高模型的性能和准确性。

4. 模型选择与建立在进行建模之前,需要选择适合的模型。

常用的建模方法有回归分析、分类分析、聚类分析等。

根据问题的性质和数据的特点,选择适合的模型,并通过参数估计或模型训练,建立预测模型。

5. 模型评估与优化建立模型后,需要对模型进行评估和优化。

评估指标可以包括准确率、召回率、F1值等,根据评估结果对模型进行调整和优化。

常用的优化方法有参数调整、集成学习、交叉验证等。

二、数据驱动的分析1. 数据分析目标设定在进行数据分析之前,需要明确分析的目标和问题。

通过问题的设定,可以帮助我们确定分析的方向和方法,并更好地利用数据来解决问题。

2. 数据预处理数据预处理是数据分析的前提,它包括数据清洗、数据集成、数据转换等过程。

数学建模竞赛中模型假设与问题解决方案

数学建模竞赛中模型假设与问题解决方案

数学建模竞赛中模型假设与问题解决方案数学建模竞赛一直以来都是学生们锻炼数学思维和解决实际问题的重要平台。

在这个竞赛中,模型的假设和问题的解决方案是至关重要的。

本文将探讨数学建模竞赛中模型假设的重要性以及如何选择合适的问题解决方案。

首先,让我们来了解一下数学建模竞赛中模型假设的作用。

模型假设是建立数学模型的基础,它决定了模型的适用范围和可行性。

一个合理的假设可以使模型更加准确地描述实际问题,从而提高解决问题的效果。

在选择模型假设时,需要考虑到问题的实际情况和数据的可靠性。

假设过于理想化或者与实际情况不符的模型,往往无法解决实际问题,甚至会导致错误的结论。

因此,选择合适的模型假设是解决问题的关键。

接下来,我们来看一下如何选择合适的问题解决方案。

在数学建模竞赛中,问题解决方案通常包括模型的建立和求解。

首先,我们需要选择适合问题的数学模型。

模型的选择应该基于问题的特点和要求。

例如,对于时间序列预测问题,可以选择ARIMA模型或者神经网络模型;对于路径规划问题,可以选择最短路径算法或者遗传算法。

选择合适的模型可以提高问题解决的效率和准确性。

在模型建立之后,我们需要选择合适的求解方法。

求解方法的选择应该基于模型的特点和问题的要求。

一般来说,可以使用数值计算方法或者符号计算方法进行求解。

数值计算方法适用于模型较为复杂或者无法得到解析解的情况,它通过数值迭代的方式逼近问题的解。

符号计算方法适用于模型较为简单且能够得到解析解的情况,它通过代数运算的方式得到问题的解。

选择合适的求解方法可以提高问题解决的效率和准确性。

除了模型假设和问题解决方案,数学建模竞赛中还需要考虑到实际问题的约束条件和评价指标。

约束条件是指问题解决过程中需要满足的条件,如资源限制、时间限制等。

评价指标是指评价问题解决方案好坏的标准,如准确性、可行性等。

考虑到实际问题的约束条件和评价指标可以使问题解决更加符合实际需求。

综上所述,数学建模竞赛中模型假设和问题解决方案的选择至关重要。

模型的实验设计和数据分析

模型的实验设计和数据分析
导模型参数的调整。
调整模型参数:根据优化 算法的指导,不断调整模 型参数,以实现优化目标。
验证优化效果:通过交叉 验证等技术评估优化后的 模型效果,确保优化目标
的实现。
模型精度提高 预测准确性增强 参数调整优化 模型泛化能力提升
优化结果
非常感谢您的观看
汇报人:
模型评估
评估指标
准确率:衡量模 型预测准确性的
指标
精度:实际为正 例的预测为正例
的比例
召回率:实际为 正例中被预测为
正例的比例
F1值:准确率和 召回率的调和平
均数
评估方法
准确率评估:衡量 模型预测结果的准 确程度
精度和召回率:分 别衡量模型在正负 样本上的表现
F1分数:综合考 虑精度和召回率, 评估模型的整体性 能
超参数优化:通过自动搜 索技术,找到最优的超参 数组合,提高模型性能
优化过程
收集数据:收集足够的数 据用于模型训练和验证, 确保数据的质量和多样性。
确定优化目标:根据实验 目的确定模型优化的具体 目标,如提高模型的预测 精度、降低误差等。
选择优化算法:选择适合 的优化算法,如梯度下降 法、遗传算法等,用于指
模型的实验设计和数据分 析
汇报人:
实验设计
数据收集
数据分析
模型评估
模型优化
实验设计
确定研究问题 明确实验目的 确定实验变量 设计实验操作流程
实验目标
确定实验目的和假设
实验方法
选择实验设计类型
确定实验变量和操作
设计实验流程和操作步骤
实验流程
确定研究目的和假设
பைடு நூலகம்
选择实验方法和材料
实验操作和数据采集

第四讲 模型设定和数据处理

第四讲 模型设定和数据处理

1. 遗漏变量偏差 遗漏变量与解释变量不相关 遗漏变量与解释变量相关(内生性) 2. 无关变量的加入
2. 部分回归图 一般一元线性模型可以利用线性拟合图观察 二者模拟的优劣,但一般多元线性模型的多 个解释变量之间可能相互影响,因此,需要 求出每个变量对被解释变量的净的影响(剔 除掉其他变量的影响)。 reg price mpg weight turn foreign avplots
关键样本点的处理
1. 关键样本点本身不一定异常。 2. 如果关键样本点存在数据错误(如输入错 误),加以修正。 3. 部分调查问卷的关键样本点可以考虑删除。 4. 如果关键样本点的存在合理,考虑使用 Tobit模型。
虚拟变量
许多经济变量是可以定量度量的,如:商品 需求量、价格、收入、产量等 但也有一些影响经济变量的因素无法定量度 量,如:职业、性别对收入的影响,战争、 自然灾害对GDP的影响,季节对某些产品 (如冷饮)销售的影响等等。 为了在模型中能够反映这些因素的影响,并 提高模型的精度,需要将它们“量化”,
残差分析和异常样本点的处理
对特殊样本点的检验和处理:离群样本点、 杠杆样本点和关键样本点。 离群样本点:残差值较大的样本点 杠杆样本点:与样本整体(X’X)很不相同的少 数样本点 关键样本点: 对回归结果有重要影响的少数 样本点
图形分析 reg price weight mpg turn foreign lvr2plot(注意两条红线的含义) lvr2plot, mlabel(make) 离群值的获得 predict e, res list make e 杠杆值的获得 predict lev, leverage list make lev
5,000
国产拟合 整体拟合

模型设定和数据问题的深入探讨42页PPT

模型设定和数据问题的深入探讨42页PPT

谢谢你的阅读
❖ 知识就是财富 ❖ 丰富你的人生
71、既然我已经踏上这条道路,那么,任何东西都不应妨碍我沿着这条路走下去。——康德 72、家庭成为快乐的种子在外也不致成为障碍物但在旅行之际却是夜间的伴侣。——西塞罗 73、坚持意志伟大的事业需要始终不渝的精神。——伏尔泰 74、路漫漫其修道远,吾将上下而求索。——屈原 75、内外相应,言行相称。——韩非
模型设定和数据问题的深入 探讨
31、别人笑我太疯癫,我笑他人看不 穿。(名 言网) 32、我不想听失意者的哭泣,抱怨者 的牢骚 ,这是 羊群中 的瘟疫 ,我不 能被它 传染。 我要尽 量避免 绝望, 辛勤耕 耘,忍 受苦楚 。我一 试再试 ,争取 每天的 成功, 避免以 失败收 常在别 人停滞 不前时 ,我继 续拼搏 。
33、如果惧怕前面跌宕的山岩,生命 就永远 只能是 死水一 潭。 34、当你眼泪忍不住要流出来的时候 ,睁大 眼睛, 千万别 眨眼!你会看到 世界由 清晰变 模糊的 全过程 ,心会 在你泪 水落下 的那一 刻变得 清澈明 晰。盐 。注定 要融化 的,也 许是用 眼泪的 方式。
35、不要以为自己成功一次就可以了 ,也不 要以为 过去的 光荣可 以被永 远
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第 9 章模型设定与数据问题如果模型设定(model specification)不当,如解释变量选择不当、测量误差、函数形式不妥等,会出现“设定误差”(specification error)。

数据本身也可能存在问题,如多重共线性、对回归结果影响很大的极端数据等。

29.1 遗 漏 变 量假设真实的模型为y i = x i '1β1 + x i '2 β2 + εi其中,x 1, x 2 可以是向量,且与扰动项 不相关。

而实际估计的模型(estimated model)为y i = x i '1β1 + u i遗漏变量(omitted variables) x i '2 β2 ,被归入新扰动项u i = x i '2 β2 + εi 。

3考虑以下两种情形:(1) Cov(x i 1, x i 2 ) = 0 。

OLS 一致。

遗漏变量x i '2 β2 归入扰动项u i 中,可能增大扰动项的方差,影响估计精度。

(2) Cov(x i 1, x i 2 ) ≠ 0OLS 不一致,其偏差为“遗漏变量偏差”(omitted variable bias)。

解决遗漏变量偏差的方法主要有:(i)加入尽可能多的控制变量(control variable);(ii)使用“代理变量”(proxy variable);(iii)工具变量法(第10 章);(iv)使用面板数据(第15-17 章);(v)随机实验与自然实验(第18 章)。

4第(i)种方法:尽可能去收集数据。

或从理论上说明,遗漏变量不会与解释变量相关,或相关性很弱。

例李宏彬等(2012)通过就业调查数据,研究“官二代”大学毕业生的起薪是否高于非官二代。

由于可能存在遗漏变量,该文包括了尽可能多的控制变量,比如年龄、性别、城镇户口、父母收入、父母学历、高考成绩、大学成绩、文理科、党员、学生会干部、兼职实习经历、拥有技术等级证书等。

5第(ii)种方法,即代理变量法。

比如,在教育投资回归中,可用智商(IQ)来作为个人能力的代理变量。

理想的代理变量应满足以下两个条件:(1)多余性(redundancy):即代理变量仅通过影响遗漏变量而作用于被解释变量。

比如,“智商”仅通过对“能力”的作用来影响工资收入。

假如有“能力” 的数据,引入“智商”量就是多余的。

(2)剩余独立性:遗漏变量中不受代理变量影响的剩余部分与所有解释变量均不6相关。

78命题 如果上述两个条件满足,使用代理变量能获得一致估计。

证明:假设真实模型为y = β0 + β1x 1 + + βK x K + γ q + ε其中,q 为不可观测的遗漏变量。

假定Cov(x k , ε ) = 0, ∀ k ,但 q 与某解释变量x m 相关(1 ≤ m ≤ K ),即Cov(x m , q ) ≠ 0,故 OLS 不一致。

假设找到代理变量 z ,满足q = δ0 + δ1z + v , Cov(z ,v ) = 0根据第一个条件(多余性),代理变量 z 只通过 q 对 y 发生作用,9故在回归方程已经包含 q 的情况下,z 与 y 的扰动项 不相关,即 Cov(z ,ε ) = 0。

根据第二个条件,q 的扰动项v 与所有解释变量均不相关,即 Cov(x k ,v ) = 0, ∀ k 。

将 q 的表达式代入原模型可得y = (β0 + γδ0 ) + β1x 1 + + βK x K + γδ1z + (γ v + ε )容易证明,新扰动项(γ v + ε ) 与所有解释变量均不相关,Cov(x k ,γ v + ε ) = γ C o v (x k , v ) + C o v (x k , ε ) = 0 + 0 = 0 (∀ k )condition 2 assumptionCov(z ,γ v + ε ) = γ C ov (z , v ) + C ov (z , ε ) = 0 + 0 = 0assumption condition 1故 OLS 一致。

如果代理变量不满足这两个条件,则不一致。

10任何实证研究中几乎总是存在遗漏变量。

论文应说明,如何在存在遗漏变量的情况下避免遗漏变量偏差。

9.2 无 关 变 量假设真实模型为y i = x i '1β1 + εi其中,Cov(x i 1,εi ) = 0 。

而实际估计的模型为y i = x i '1β1 + x i '2 β2 + (εi - x i '2 β2 ) =011由于真实参数β2 = 0,故可将模型写为y i = x i '1β1 + x i '2 β2 + εi 。

由于x 2 与 y 无关,故x 2 也与 y 的扰动项 无关,即Cov(x i 2 , εi ) = 0。

故 OLS 一致,即plim βˆ = β ,plim βˆ = β = 0。

11n →∞22n →∞但引入无关变量后,估计量βˆ 的方差一般会增大。

9.3 建模策略:“由小到大”还是“由大到小”“由小到大”(specific to general)的建模方式,首先从最简单的小模型开始,逐渐增加解释变量。

1但小模型很可能存在遗漏变量,导致估计量不一致,t 检验、F 检验都将失效,很难确定该如何取舍变量。

“由大到小”(general to specific)的建模方式,从尽可能大的模型开始,收集所有可能的解释变量,逐步剔除不显著的解释变量。

虽冒着包含无关变量的危险,但危害性没有遗漏变量严重。

但在实际操作上,常常很难找到足够多的解释变量。

实践中,常采用这两种策略的折衷方案。

129.4 解释变量个数的选择加入过多解释变量可提高模型解释力,但牺牲模型的简洁性(parsimony)。

权衡标准:(1)校正可决系数R2:选择解释变量的个数K 以最大化R2。

(2)“赤池信息准则”(Akaike Information Criterion,简记AIC):选择解释变量的个数K,使得以下目标函数最小化:min AIC ≡ ln(e'e / n) +2 KK n13右边第一项为对模型拟合度的奖励(减少残差平方和),第二项为对解释变量过多的惩罚(解释变量个数K 的增函数)。

当K 上升时,第一项下降而第二项上升。

(3)“贝叶斯信息准则”(Bayesian Information Criterion,简记BIC)或“施瓦茨信息准则”(Schwarz Information Criterion,简记SIC 或SBIC):min BIC ≡ ln(e'e / n) + K ln nK n一般来说,ln n>2,故BIC 准则对于解释变量过多的惩罚比AIC 严厉。

BIC 准则更强调模型的简洁性。

14(4)“汉南-昆信息准则”(Hannan-Quinn Information Criterion,简记HQIC):min HQIC ≡ ln(e'e / n) + K ln[ln(n)]Kn在时间序列模型中,常用信息准则来确定滞后阶数。

比如,AR(p)模型:yt=β0+β1 y t -1 + +βp y t -p+εt , t = 1, ,T根据BIC 或HQIC 计算的pˆ是p 的一致估计,即当T→∞时,Pr(pˆ< p)→0,Pr(pˆ= p)→1,Pr(pˆ> p) → 0。

15根据AIC 计算的pˆ不一致,在大样本中可能高估p ,虽然Pr(pˆ< p)→0,但Pr(pˆ> p) →c > 0。

在实践中,常用AIC 与BIC。

虽然BIC 一致而AIC 不一致,但现实样本有限,而BIC 准则可能导致模型过小,故AIC 准则依然常用。

9.5 对函数形式的检验如果回归方程中存在非线性项,则边际效应不再是常数。

1617【例】y = β+ β x + β x + β x + γ x 2+ δ x x + ε1 12 23 312 3各变量的边际效应为:E( y ) = β + 2γ x , E( y ) = β + δ x , E( y ) = β + δ x∂x 1 1 ∂x 23 ∂x 3 2 1 2 3如怀疑边际效应非常数,应考虑中引入非线性项。

182 3 4“Ramsey’s RESET 检验”(Regression Equation Specification Error Test)的基本思想是,如怀疑遗漏非线性项,则引入非线性项,并检验其系数是否显著。

假设线性回归模型为y = x 'β + ε回归拟合值y ˆ = x 'b 。

y ˆ 是x 的线性组合,y ˆ2包含解释变量二次项 (含平方项与交叉项)的信息,y ˆ3包含解释变量三次项的信息,等等。

考虑回归方程: y =x 'β+ δ y ˆ2 + δ y ˆ3+ δ y ˆ4+ ε对H 0 : δ2 = δ3 = δ4 = 0作 F 检验。

如拒绝H 0 ,说明应有高次项;192如接受H 0 ,可使用线性模型。

RESET 检验的缺点是,拒绝H 0 时,不知道具体遗漏哪些高次项。

另一检验为“连接检验”(link test)。

“连接”指的是,将解释变 量与被解释变量连接在一起的函数形式是否正确。

进行以下回归:y = δ0 + δ1 y ˆ + δ yˆ2+ error检验“ H 0 : δ2 = 0”。

如果模型设定正确,则yˆ2不应对 y 有解释 力。

如果拒绝H 0 : δ2 = 0,则认为模型设定有误,可考虑加入非线 性项或改变回归的函数形式(比如,取对数)。

20k K在确定回归方程的函数形式时,最好从经济理论出发。

如缺乏理论指导,可从线性模型出发,再进行 RESET 或连接检验,看是否应加入非线性项。

9.6 多重共线性如果数据矩阵X 不满列秩,即某一解释变量可由其他解释变量线性表出,则存在“严格多重共线性”。

近似的多重共线性表现为,将第 k 个解释变量x k 对其余的解释变量{x 1 , , x k -1, x k +1 , , x }进行回归,所得可决系数(记为R 2)较高。

在多重共线性下,OLS 仍是BLUE,但不表示OLS 估计量方差在绝对意义上小。

由于存在多重共线性,矩阵( X 'X ) 变得几乎不可逆,( X 'X )-1变得很“大”,致使方差Var(b|X ) =σ2 ( X 'X )-1增大,系数估计不准确。

X 中元素轻微变化就会引起( X 'X )-1很大变化,导致OLS 估计值b 发生很大变化。

通常的“症状”是,虽然整个回归方程的R2较大、F 检验也很显著,但单个系数的t 检验却不显著。

相关文档
最新文档