评估政府统计数据的真实性-计量-范文

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

评估政府统计数据的真实性
——以我国各省（直辖市）1997～2010年GDP为例
* 郭代玉珠
2012年6月
摘要本文旨在检验我国各省（直辖市）政府统计的 GDP 数据的真实性。采用 1997 年~2010 年 31 个省（直辖市）政府公布的宏观经济数据，应用动态面板数据模型的研究结果发现，各省（直辖市）政府公布的 GDP 数据的真实性确实存在一定的问题，其中以中西部较为严重。本文揭露了各省（直辖市）政府公布的 GDP 数据的真实性所存在的问题，对地方政府的统计工作有一定的警示作用，同时本文所用到的方法对后续研究提供了参考。
[3]
[1]
。除了这些学者外，
连普通老百姓也经常抱怨房价或自己的收入水平“被平均”了。更有甚者，2009 年人们发现各省（直辖市）GDP 汇总之后，总和为 153755.68 亿元，比国家统计局统计的多出 13894 亿元。国家统计局和地方政府数据相差万亿元，令外界再度质疑地方 GDP 的准确性，对此，外界普遍认为，许多地方官员为显示自己政绩，过于看重经济增长指标，以至于在经济数据上动手脚。如果真的存在这种伪造数据的行为，那么人们（特别是政府和企业决策者）的战略与决策的正确性将受到很大的影响。如果政府不能有效回应人们对政府统计数据的疑问，并作出有效的整改措施的话，那么政府的公信力将会因此受到质疑。目前国内外已有不少关于政府统计数据质量的研究。在国外，联合国统计局于 1980 年出版的《统计组织手册》对官方统计资料提出了八项要求[3]。国际货币基金组织(IMF)为了提高其成员国的统计数据质量，先后于 1998 年和 2001 年颁布了数据公布特别标准(SDDS)[4]、数据公布通用系统(GDDS)[5]以及数据质量评估框架(DQAF)[6]等国际标准，对其成员国统计数据的生产、发布以及对数据质量定性评估提供了方法上的指导。2002 年 4 月 15 日我国政府
4
[13] [12]
但是为了估计哑变量的系数，我们并未直接用 LSDV 模型估计，而是将固定效应模型在系统广义矩估计下得出的解释变量的系数代入含有哑变量的水平方程，从而估计出各横截面和时间上的固定效应，并最终估计出水平方程的随机扰动项。未直接使用 LSDV 模型估计水平方程的优点在于可以在估计出固定效应的同时保证各个解释变量的系数已消除了内生性问题以及自相关问题。最终基于水平方程的随机扰动项的异常值，我们找出所有观测中 GDP 异常的省（直辖市）和年度。另外，本文在构造模型时，为了在保证 R 足够大的同时，又避免出现多重共线性，采用了逐步回归的方法筛选变量。最终得出的模型中的各解释变量的系数均显著且 R 很大。另外，在对异常值检验上，本文并没有像很多研究者一样在假设前几年的数据均正确的基础上估计出最后一年的 GDP。因为我们这样的假设是不必要且不合理的，因为 GDP 数据一直以来就受到质疑，因此，我们并没有这样的假设，而是直接用所有年份的数据对所有年份 GDP 进行重估，这样能判定出更多年份的 GDP 的真实性。并且，为了尽可能准确地估计出 GDP 的真实值，我们选取的解释变量都是一直以来鲜有被质疑过的或者和政府绩效考核关系不大的指标，并假设这些数据是准确的。最终得出 GDP 的随机扰动项，为了消除不同省和年份 GDP 量纲的影响，我们将得出的随机扰动项除以 GDP 得到残差的百分比，找出在残差百分比中百分位 [5%，95%]之外的点，即为在 5%置信水平下的 GDP 异常的省（直辖市）和年份。综上，本文的假设合理，解释变量选取也合理，模型构造不仅考虑了各方面因素对 GDP 的影响还考虑了内生性问题，因此能比较准确地拟合出变量之间的真实关系。同时在判断异常值时，本文将残差百分比在 5%置信水平下的异常值作为异常点，将比直接找出残差的异常值更合理，对以后的相关研究具有参考意义。
关键词Biblioteka Baidu
政府统计数据真实性
双固定效应模型系统广义矩估计
*西南财大经济管理学院学号：41011008 E- mail: guodaiok@163.com
1
一、引言
改革开放以来，随着我国经济的发展和市场主体的多元化，社会各界对统计数据及其质量有着越来越高的要求。统计数据带有公共产品属性，一方面，政府统计机构本身需要对其得到的统计数据进行评价，以此来监督评判其工作的效果，并将该结果应用于国家宏观调控政策、社会发展规划和战略等关系国计民生的重大决策，同时为下一阶段的统计工作打好基础。如果政府公布的统计数据不能真实有效地反映相关的质量特征，不仅不能令公众信服，而且最终必然会对社会的经济发展、文化建设、科技进步等诸多方面带来极大的不利影响。另一方面，个人企业等微观经济主体也越来越认识到统计数据的重要性。通过对统计数据的深入分析，企业能够正确认识当今的宏观经济走势及微观经济运行，从而在激烈的市场竞争中占据优势。因此，获取准确全面的统计数据并进行有效的分析日益受到社会各界的重视。然而近 10 年来，我国政府统计数据质量经常受到国内外学者和媒体的质疑。例如，比较早地开始质疑中国政府统计数据的是孟连和王小鲁（2000），他们通过分析各种价格指数、货运增长率以及电力和能源消费增长率等指标与 GDP 增长率之间的关系，认为 1996-1998 年中国 GDP 指数有较大虚增成分；Rawski.T.G.（2001）则以 1997-2000 年间中国实际 GDP 增长 24.7％、而在同一时期能源消耗却下降了 12.8％为理由明确提出对中国 GDP 增长的质疑，在详细分析 1998 年航空旅客运输的数据后， Rawski 认为 2.2％是 1997-1998 年中国 GDP 增长率的一个上限，实际结果有可能远远低于它，甚至有可能是负数
2 2
三、模型、变量与数据
（一）模型设定本文利用 1997-2010 年中国各省（直辖市）宏观经济面板数据进行分析，研究过程中考虑建立关于各省（直辖市）的国民生产总值的回归模型。经过对比预测值与实际值找出统计意义上的异常值，从而认定为异常的 GDP 数据。基于凯恩斯宏观经济模型，建立了如下形式的国民生产总值的回归模型：
2
正式加入数据公布通用系统（GDDS），对数据质量的要求又扩展到数据特征、公布数据的质量、公布数据的完整性和公众获取等方面，我国的统计数据得到了越来越广泛的关注。然而国内的学者多是从定性的角度研究政府统计数据的质量，以及如何采取措施来提高我国的政府统计数据。对于统计数据质量比如统计数据的准确性的研究却少有定量的研究。因此，本文将以政府公布的 GDP 为待测指标，用计量模型对我国各省（直辖市）政府公布的 GDP 的准确性进行定量研究。全文的后续安排如下：第二部分是对以往文献的回顾，第三部分是模型的建立、变量的选取和数据来源说明，第四部分是对结果的分析讨论，第五部分是关于内生性问题的处理，第六部分是对异常值的检验，第七部分则是结论和对政策的建议。
[10] [7] [8] [9]
。
另一部分的研究则是从定量的角度研究政府统计数据的准确性。这些定量研究的方法主要分为以下三种。第一种是利用统计指标之间存在的包含、恒等以及相关等内在逻辑关系为判断标准、实现对统计指标数据的可信度的粗略检验。基于中国存在已久的各地区 GDP 的总和显著大于全国 GDP 以及各地区 GDP 增长率的加权平均数显著高于全国 GDP 增长率等数据不一致现象，孟连、王小鲁（2000）认为各地区 GDP 增长数据普遍存在不可信问题，另外，孟连、王小鲁通过分析各种价格指数、货运增长率以及电力和能源消费增长率等指标与 GDP 增长率之间的关系，认为 1996-1998 年中国 GDP 指数有较大虚增成分。这种方法虽然较简便，但是很粗略，
Yit 0 1Cit 2 Iit 3Git 4 X it Vit
其中，Y 为国民生产总值，C 代表消费值，Ｉ代表投资额，Ｇ代表政府支出，Ｘ代表货物
5
与服务净出口，
二、文献回顾
随着社会进步与经济发展对大规模统计数据搜集系统的需求不断增强，统计数据质量的研究越来越受到人们的关注。一部分学者是从定性的角度对政府统计数据质量进行研究。其中为代表的有傅德印（1994）提出了政府统计数据质量管理体系的原理和框架、质量控制技术体系，并对统计数据质量进行了一定的思考。李金昌（1998）、赵乐东（2000）等人对统计数据质量的涵义也作了深入的探讨，提出统计数据质量不等于准确性，而应该是一个多维的综合性的概念。他们认为统计数据质量是融合统计数据的搜集、加工整理、保存、分析和开发研究的全过程，集准确性、及时性、完整性、有用性和简便性要求于一体。陈凤兰、王秀勤（2005）提出建立数据质量的监控和评估中心，建立健全完善的统计数据产品质量管理体系，对统计数据生产全过程实行全面质量管理，从而提高统计数据的完整性和透明度
3
[1]
因为当出现异常值时，无法判断是哪一个指标的数据出了问题。第二种是以待评估统计指标的统计核算规范或方法为依据，充分挖掘一切已知的资料，重新估计待评估统计指标数据，以此来检验统计数据的准确性。其代表有 Keidel（2001）
[11]
则从支出法的角度重新估计了中国 1979-2000 年的 GDP 增长率，具体做法是：以城镇和农村 CPI 分别缩减城镇和农村居民消费、以全国 CPI 缩减政府消费、以官方投资缩减指数缩减资本形成以及以零售价格指数缩减贸易差额，最后加总各构成要素的实际值，并据此计算支出法 GDP 的增长率，同时针对官方公布的农村消费数据与住户调查得到的农村消费数据的不同，又给出了两个估计值。这种方法的关键是如何重新估计待评估的统计指标数据。但是由于受到可获取资料不足的影响，评估所需的数据缺失较多，因此在实际评估中的通常做法为选用一些替代数据来修正特定数据，但是在选取替代数据的过程中不可避免要受到研究者主观因素的影响。第三种方法则是利用计量经济模型，对待评估的统计指标进行重新估计，根据估计值和政府公布的数据之间的误差找出异常值。比如：刘洪、黄燕（2007）利用经典时间序列模型，拟合出待评估数据的趋势，利用往年的数据重新估计出待测年份的数据，然后重新估计的值与政府公布的值之间的误差百分比，找出异常值，并对异常值进行统计显著性检验，从而评估出待测数据的准确性。另外，也有学者利用面板数据，尽可能多地引入相关变量作为解释变量，从而对待测指标进行重新估计。例如，阙里、钟笑寒（2005）在研究 GDP 或其增长率的可信度时选取了尽可能多的、来源相对独立的、代表性强的经济指标作为解释变量，为排除多重共线性的影响，同时也为节省自由度，他们在估计模型参数前先对原始自变量做了主成分分析，再将得到的主成分作自变量进行参数估计，并根据主成分与原始指标的关系将各主成分的估计系数还原成原始指标的系数，同时他们还考虑了地区和年度的影响，引入了地区和年度的哑变量。以上两种方法各自都存在一定的缺陷。首先，用时间序列来预测待评估数据时没有考虑到其它因素对 GDP 的影响，因此对 GDP 的预测将会有一定偏差。而用面板数据估计 GDP 的值时，很少有学者考虑到了变量内生性问题，因此他们对 GDP 预测也会有所偏差。基于上述分析，本文将采用动态面板数据模型重估各省（直辖市）的 GDP。在选取解释变量时，本文选取的指标均是一直以来争议较小的变量，或者是和政府绩效不直接相关的指标，从而保证了解释变量数据的真实性。然后建立双固定效应模型估计出各解释变量的系数，并加入工具变量利用系统广义矩估计，以消除内生性问题，最终有效地估计了各解释变量的系数。然后，为了求出每年各省（直辖市） GDP 的估计值，我们又加入地区和年度的哑变量，