数据与模型的关系
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
计量经济学模型对数据依赖性的探索
一、引言
在计量经济学模型的应用研究中,经常有人提出类似于“鸡生蛋还是蛋生鸡”的问题,即究竟是根据数据设定模型.还是根据模型选择数据?不同的是.鸡与蛋的关系问题是没有答案的,而模型与数据的关系问题是有答案的。表示计量经济学应用模型的类型依赖于表征研究对象状态的数
据类型,不同类型的数据。必须选择不同类型的模型。在模型类型确定之后,依据对研究对象的系统动力学关系的分析,设定总体模型。在这个过程中,必须对在经济理论指导下所分析的系统动力学关系进行统计必要性检验。当总体模型被正确设定后,接下来的任务是进行模型参数的估计,毫无疑问,模型估计必须得到样本数据的支持,模型估计结果依赖于样本数据的质量。模型经过估计和检验后进人应用,根据应用目的的不同,需要不同的数据支持,例如用于预测,必须首先给出预测期的外生变量的数据,这就是所表示的步骤。
计量经济学模型对数据的依赖性的一个人所共知的例
子是关于我国广义技术进步对经济增长的贡献的测算。国内外许多学者进行了经验研究。结果差异极大,技术进步对GDP
增长的贡献率.最低的估计为0,最高估计达到40%。甚至所建立的模型都是C—D型总量生产函数模型.选择的投入要素都是资本和劳动.甚至选择的样本区间也是相同的.数据都来自于中国统计年鉴,仍然会得到不同的结论。为什么?关键是不同的研究者对资本投入的数据或者未进行任何处理,或者进行了不同方式的处理,以消除价格因素的影响最近几年.我们对农户借贷需求进行了较为广泛的调查,采集了青海、新疆、甘肃、河北、黑龙江、吉林、山西、湖南、湖北、河南、安徽、江西、陕西、山东、辽宁、内蒙古等16省区的72个县、440多个村庄的5100家农户的数据。其中,在一年中发生借贷行为的农户占55.3%(包括向亲友借贷),为2820户,其余2280户没有发生借贷。对于这一宝贵的数据资源.当然要充分利用。于是。为了对农户借贷行为进行因素分析.不同的研究者建立了不同的计量经济学模型。
上述例子从不同的角度反映了计量经济学模型与数据
之间的关系。前者反映了计量经济学模型估计结果对数据质量的依赖性:后者反映了计量经济学模型类型对数据类型的依赖性。正如李子奈(2007)指出的.在我国计量经济学应用研究广泛开展的今天,问题和错误也普遍存在。重要的原因之一是对计量经济学模型方法论基础缺乏正确的理解,其中包括计量经济学模型的数据基础问题下面将着重就当前计
量经济学应用研究中有关模型与数据之间关系的几个迫切、重要的问题进行讨论。最后对“数据陷阱”问题进行简单的讨论。
二、模型类型设定对数据的依赖性
在经济、社会问题研究中,当研究对象确定之后.表征该经济、社会活动结果的数据自然地被确定了。计量经济学应用研究的第一步,就是根据表征所要研究的经济、社会活动结果的数据类型确定应该建立什么类型的计量经济学模型,在这一步骤中.数据的类型决定了计量经济学模型的类型。李子奈(2008)指出.一个成功的计量经济学应用研究,最重要的是设定正确的总体回归模型:并且提出了总体模型设定的若干原则,包括唯一性、一般性、现实性、统计检验必要性和经济系统动力学关系导向原则。但是这些是在模型类型确定之后的任务.确定模型类型仍然是首要的任务。用于宏观和微观计量经济分析的数据分为三类:截面数据(Cross—sectional Data)、时间序列数据(Time—se~es Data) 和面板数据(Panel Data,也译为平行数据、综列数据)。
对于截面数据,只有当数据是在截面总体中由随机抽样得到的样本观测值.并且变量具有连续的随机分布时,才能
够将模型类型设定为经典的计量经济学模型。经典计量经济学模型的数学基础是建立在随机抽样的截面数据之上的。但是,在实际的经验实证研究中.面对的截面数据经常是非随机抽样得到的.或者是离散的,如果仍然采用经典计量经济学的模型设定,错误就不可避免了。
例如在前述的农户借贷的实例中.如果只利用2820户发生借贷的农户为样本,建立经典的回归模型,被称为“截断数据”(Trunca—tion Data)。这类数据在实际经济分析中十分常见,特别在微观经济社会问题研究中大量存在。人们抽取的样本经常是“掐头”或者“去尾”的。对于这类数据,因为抽取每个样本的概率发生了变化,如果仍然采用经典计量经济学模型,其估计结果就产生了“选择性偏误”,应该建立截断数据模型,在这方面J.J.Heckman(1974.1979)做出了基础性贡献。
例如,我们研究的对象是选择的结果,或者是二元选择问题,或者是多元选择问题。作为模型被解释变量的观测值只能是0、1或者0、1、2、…。这类问题人们几乎每时每刻都面临着。选择结果受哪些因素的影响?各个因素的影响程度有多大?当然可以通过建立计量经济学模型来分析。但是,经典计量经济学模型显然是不适用的,应该建立专门的离散
选择模型,在这方面.D.LMcFadden(1974)做出了基础性贡献。
再如,我们经常要研究表现为计数数据(Count Data)的社会、经济活动结果受哪些因素的影响。例如,汽车一个月内发生事故的次数、学生本科4年内不及格的课程门数、大学毕业生参加工作前5年内调换工作的次数、个人一年内到医院就诊的次数,等等。这些数据都是离散的非负整数,在随机抽取的一组样本中.零元素和绝对值较小的数据出现得较为频繁,重复抽样的正态分布假设不再适用。显然,对于这样的问题,不可以建立以正态性假设为基础的经典计量经济学模型,应该建立专门发展的计数数据模型,
Gilbert(1979)提出了泊松回归模型,Hausman,
Hall&Gfiliches(1984)提出了负二项回归模型。
对于时间序列数据,经典计量经济学模型只能建立在平稳时间序列基础之上,因为只有对满足渐进不相关的协方差平稳序列,才可以适用基于截面数据的统计推断方法,建立时间序列模型。协方差平稳性和渐进不相关性为时间序列分析适用大数定律和中心极限定理创造了条件,替代了截面数据分析中的随机抽样假定(Wooldfidge,2003)。
否则.数据的时间序列性破坏了随机抽样假定.取消了