教育对地区内收入差距的贡献_来自上海微观数据的考察_田士超

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

南方经济2007年第5期
教育对地区内收入差距的贡献:
来自上海微观数据的考察
田士超陆铭*
内容摘要作为人力资本的一个度量,教育对于收入差距的贡献一直受到广泛的关注,但却研究不够。

本文借助上海市1431户家庭的微观数据,估计了一个包含教育变量的收入决定函数,然后在基于回归分析的收入差距分解框架内,运用最新发展起来的夏普里值过程(ShapleyValueApproach),分解出了教育对于收入差距的贡献大小。

通过比较发现,与地区间差距的情形不同,教育对于地区内收入差距而言是最重要的影响因素。

关键词教育收入差距夏普里值过程
JEL分类:D31,I21,R23中图分类号:F126.2文献标识码:A文章编号:1000-6249(2007)05-0012-010
一引言
中国的收入分配问题历来受到国内外学术界的广泛关注,对于其现状、成因和变化趋势,已经积累了大量的理论和实证文献。

在探讨收入差距形成因素的文献中,教育作为人力资本的一个度量,通常都是重点考察对象之一。

考虑教育如何影响收入差距的实证研究,常见的做法有两种:第一种是单方程回归,即将收入差距的度量指标作为被解释变量,教育的度量指标作为解释变量之一,来考察两者之间的关系,如王小鲁、樊纲(2005);另外一种做法是按教育程度对样本进行分组,然后运用泰尔指数(或其他广义熵指标)的分解法将总收入差距(或工资性收入、消费性支出的差距)分解为组内和组间的差距,借此考察教育对收入差距的影响,如Takahiro等(1999)和Vere(2004)。

单方程回归仅能得出教育对收入差距的正负影响关系,而无法得到具体的贡献大小。

泰尔指数(或其他广义熵指标)的分解法无法排除其他因素的干扰,因而经常无法取得有信服力的解释。

为了衡量教育对收入差距的影响程度,基于回归分析的收入差距分解法就成为必需。

该方法不但能够告诉我们决定收入差距的各个因素,更重要的在于,它可以分解出每一个因素对收入差距的具体贡献大小,并可以据此进行排序。

目前,这方面的文献并不多见。

Morduch和Sicular(2002)提出了一个基于回归分析对收入差距进行分解的方法,该方法首先在线性回归的框架内估计出每个变量所能解释的收入大小,然后在将
*田士超:复旦大学经济学系就业与社会保障研究中心上海200433电子信箱:tscstone@yahoo.com.cn;陆铭:复旦大学经济学系就业与社会保障研究中心上海200433。

本文曾在2006年复旦大学博士生学术论坛(经济篇)上报告过,作者感谢复旦大学经济学院985创新基地研究项目、上海市曙光学者项目和教育部给予全国优秀博士论文作者的研究资助,感谢匿名审稿人的有益建议,文责自负。

南方经济2007年第5期
收入不平等指标写成各个部分收入的加权和的基础上,估计出每个变量对收入差距的贡献度。

将其用于1990-1993年间山东省邹平县16个村的农户数据,Morduch和Sicular(2002)发现,教育对收入差距的贡献依赖于收入差距具体指标的选择:如果用基尼系数和变异系数的平方,贡献率为3%,教育变量略微增加了收入差距;如果用泰尔指数,教育则减少了收入差距,贡献率在50-55%之间。

遵循同样的方法,Babatunde(2003)借助基尼系数对尼日利亚1996年家庭人均消费性支出的差距进行了分析,结果表明,教育对于消费差距的贡献仅次于地理位置因素,而且,高等教育有明显的降低差距的作用。

另外一些研究则继承和发展了Fields和Yoo(2000)提出的分解方法,它将变量对收入差距的贡献归结为回归估计系数、变量标准差、变量与总收入的相关系数三者的乘积除以总收入标准差所得到的商。

Rasmus(2003)借助该方法,对1997-1998年间越南地区间收入差距进行了研究,发现教育的贡献对于消费性支出的差距是比较重要的,但仍然小于地理位置的贡献;动态地看,与1992-1993年相比,高等教育对于消费差距的贡献上升了,而初等教育则恰恰相反。

除了消费性支出差距,工资性收入的差距同样也是收入差距的重要补充。

Anna(2006)使用上述方法对俄罗斯1994-2003年间的工资性收入差距进行了分解,结果发现,教育是一个非常次要的影响因素,在所有自变量能够解释的40%的总收入差距中,教育仅仅贡献了1.9-4.3%。

理论上讲,教育对收入差距的贡献可以分为教育程度和教育回报率两个方面来考察。

Yun(2006)通过对1969-1999年间美国工资性收入差距的分解发现,教育回报率对收入差距的上升贡献很大,这在上世纪八九十年代体现得尤为明显;与之相反的是,教育程度本身并没有对工资性收入差距的变化起到太大的作用。

Wan(2002)指出,Morduch和Sicular(2002)、Fields和Yoo(2000)所提出的分解方法依赖于特定的回归方程形式和特定的收入差距指标,更重要的是,它们都没有对方程中的常数项和残差项给出一个科学的处理方法。

正因为此,本文运用Shorrokcs(1999)提出的夏普里值过程对收入差距进行分解,不同于上述方法,该框架适用于任何收入决定函数和任何度量收入差距的指标;而且,结合Wan(2002)所提出的方法,本文可以解决常数项和残差项对收入差距的贡献问题。

同样使用了夏普里值过程的文献有Wan和Zhou(2004)和万广华等(2005),此外,它们都着眼于中国收入差距影响因素的分析,因而也成为与本文最为相关的文献。

借助广东、湖北、云南三省的农户调查数据,Wan和Zhou(2004)通过回归分解表明,在构成农村收入不平等的因素中,地理位置、资本投入、农业产业结构的作用非常明显,而教育的作用则非常小,用基尼系数来衡量,2002年所有自变量能够解释的88.5%的总收入差距中,教育的贡献仅为2.07%。

可以这样理解,对于中国农村地区间的收入差距来说,教育相对于其他因素并不重要。

同样发现教育对地区间收入差距不重要的是万广华等(2005),尽管其采用了全国省一级的加总数据。

该文章发现,从相对贡献来看,在影响地区间收入差距的九个因素中,教育的贡献仅排在倒数第二或者第三。

与上述两篇文献不同,本文着眼于教育对地区内收入差距的贡献。

具体来说,借助2005年上海市的住户调查数据,我们试图回答这样两个问题:教育对于地区内收入差距的具体影响程度如何?其贡献度在所有解释变量中处于一个怎样的位置?
本文的结构如下:第二部分分析收入决定函数,第三部分讨论收入差距分解的结果,最后一部分总结全文并将指出本文的政策含义。

二收入决定函数
我们所使用的数据来自于2005年末复旦大学就业与社会保障研究中心实施的“上海市劳动力市
①为了与大多数文献的做法一致,我们曾尝试放入了劳动力平均年龄和劳动力平均受教育年限的平方,但它们都非常不显著。

②这个变量可以理解为前定变量:我们使用的仅是2005一年的数据,家庭根据当年收入状况在当年做出买房决定的概率很小。

场与收入分配”调查,该调查覆盖到了上海市五个具有代表性的地区(分别为宝山区、杨浦区、浦东新区、卢湾区和奉贤区)的1500户家庭,样本的选取严格遵循了随机性原则和代表性原则,使用了科学合理的方法。

对初始调研数据进行核对、匹配与整理后,最后所得可用数据为1453户家庭的4494名个人,包括了家庭(个人)基本信息、最近一年家庭支出、最近一年家庭收入、家庭财产情况和个人工作情况等,很好地满足了本文研究过程的需要。

而且,通过与2005年上海统计年鉴相关数据的比较可以发现,调查样本在各区之间的分布比例与相应地区实际拥有的家庭数和个人数比例基本吻合。

因而,本文所使用的数据达到了较好的代表性。

进行回归分解的第一步是建立一个收入决定函数,然后将收入差距的指标计算方法运用到这个方程的两端(对此将在后面加以讨论)。

影响一个城镇家庭收入高低的因素有很多,家庭规模、家庭劳动力状况、家庭成员的年龄及受教育年限、户主性别、党员身份、地区虚拟变量都是通常要考虑的因素。

考虑到城镇家庭收入决定的特殊情形,家庭主要成员的就业状况、工作单位类型及行业类别也应该成为考察因素之一。

性别差异对一个城市家庭的收入具有非常重要的影响,因而,我们不但加入了女性劳动力人口占16岁(含)以上家庭总人口的比例,还参照孟昕(2004)对很多解释变量做了丈夫和妻子的区分。

此外,为了进一步反映劳动力的质量,家庭劳动力人口中受过培训的人数也被包含在方程中。

上海市外来劳动力数量巨大且对经济增长贡献显著,所以我们还考虑了丈夫和妻子的户籍情况。

一般来说,家庭之间的非工资性收入差异较大,我们使用丈夫和妻子是否从事自己经营的活动以及家庭经营性收入占总收入的比重这两个变量,在一定程度上反映这一问题。

最后,家庭目前所拥有房子的数量作为家庭所拥有财产的一个典型代表,也被纳入到家庭收入决定函数中。

简而言之,在本文的收入决定函数中,被解释变量为家庭人均年收入,而解释变量则包括如下几组:(1)地区虚拟变量,其中宝山区为省略变量;(2)家庭规模;(3)户主是否为男性;(4)家庭劳动力人口占家庭总人口的比例;(5)家庭女性劳动力人口占16岁(含)以上家庭总人口的比例;(6)家庭劳动力人口中受过培训的人数;(7)家庭劳动力平均年龄;(8)家庭劳动力平均受教育年限;①(9)家庭目前所拥有房子的数量;②(10)家庭经营性收入占家庭总收入的比重;(11)丈夫和妻子是否为党员;(12)丈夫、妻子、第二代人是否有失业;(13)丈夫和妻子是否为外地户籍;(14)丈夫和妻子是否从事自己经营的活动;(15)丈夫和妻子所在单位类型的虚拟变量;(16)丈夫和妻子所在行业的虚拟变量。

回归方程形式如下:
lny=α0+α1x1+α2x2+…+αKxK+虚拟变量+μ(1)
其中,y为家庭人均年收入,xi为解释变量。

由于收入变量一般是符合正态分布的,我们采用了半对数模型,这也是被普遍接受的做法。

在万广华等(2005)的研究中,半对数的收入决定模型也是在所有备选的17种模型中被接受的三个模型之一。

表1是模型的估计结果。

可以看出,除女性劳动力人口占16岁(含)以上家庭总人口的比例这一变量外,所有变量的系数在1%或5%或10%的水平上都显著不为0(丈夫是外地户籍和妻子从事自己经营的活动两个变量接近于在10%的水平上显著)。

地区虚拟变量的估计系数表明,杨浦、浦东、卢湾都比宝山富,而奉贤则比宝山收入低。

户主是男性的家庭收入要比女性户主的家庭高出7.0%。

家庭规模、家庭劳动力的平均年龄等两个变量的系数符号与预期中的一致,都是负的。

而当控制了其他变量后,增加
教育对地区内收入差距的贡献:来自上海微观数据的考察
南方经济
2007年第5期
家庭劳动力的比重、劳动力中受过培训的人数、劳动力平均受教育年限中的任一个,都会增加家庭人均年收入;其中,多受一年教育可以使家庭人均年收入增加4.3%。

家庭目前所拥有房子的数量这一变量的符号为正,也就是说,财产的增加便意味着收入的增加。

丈夫和妻子从事自己经营的活动的家庭收入显然要来得高,如果两人均从事自己经营的活动,收入可以比受雇于他人的家庭高出77.3%(可以观察到,经营性收入占总收入的比重的系数也为正)。

党员的收入明显地高于非党员的收入,这是一个在其他研究中共同被发现的结论(KnightandLi,1999);我们的研究发现,丈夫和妻子的党员身份分别可以使家庭人均年收入增加9.4%和22.1%,妻子的党员身份对于家庭收入的提高作用更加明显。

而丈夫失业、妻子失业、第二代人有失业这三个变量的估计系数都无一例外地表明,有失业者的家庭收入要低于没有失业者的家庭,三人同时失业的家庭收入会比没有失业的家庭低121.4%;可见,失业对于家庭收入的影响非常大。

户籍虚拟变量的估计结果非常有意思,丈夫是外地人的家庭比不是外地人的家庭够收入高,而当控制了这个变量之后,妻子是外地人对家庭收入的贡献则变成了负的。

为了节省篇幅,表1没有报告丈夫和妻子所在单位和行业虚拟变量的估计结果,对此的一个简单结论是:相比于在党政机关工作,妻子在国家或集体的事业单位工作的家庭收入要来得低,而丈夫在集体控股企业和集体控股的合资企业、外资独资和外资控股的合资企业工作的家庭收入要来得高。

对于行业来说,丈夫在地质、勘探、水利管理业工作的家庭收入最高,其他依次为:广播电影电视业,教育事业,国家机关党政机关和社会团体,交通运输和仓储业,农林牧渔业。

而根据妻子所在行业划分,妻子在金融保险业工作的家庭收入最高,其他依次为:医疗健康和卫生业,教育事业,农林牧渔业。

表1收入决定函数的估计结果
变量家庭规模户主是男性
家庭劳动力人口比重女性劳动力人口比重受过培训的劳动力人数劳动力平均年龄劳动力平均受教育年限家庭所拥有的房子数量经营性收入的比重丈夫是党员妻子是党员常数
R平方
样本数目
系数
-0.103***0.070*0.587***-0.1520.164***-0.013***0.043***0.180***0.221**0.094**0.221***9.026***0.3661431
标准差
0.0160.0390.1000.1100.0500.0020.0060.0290.1030.0420.0570.068
变量丈夫失业妻子失业第二代人有失业丈夫是外地户籍妻子是外地户籍
丈夫从事自己经营的活动妻子从事自己经营的活动杨浦区浦东新区卢湾区奉贤区
调整后的R平方
系数-0.354***-0.417***-0.443***0.168*-0.183**0.622***0.151*0.193***0.191***0.292***-0.259***0.350
标准差
0.0630.0600.0940.1030.0900.0810.0930.0500.0450.0680.061
说明:由于篇幅所限,表中没有包含单位和行业虚拟变量的估计结果。

*、**

***
分别表示在10%、5%和1%的水平上
显著。

①当去除不显著的家庭女性劳动力人口占16岁(含)以上家庭总人口的比例后,妻子从事自己经营的活动这一变量也变得不显著;而经营性收入占总收入的比重这一变量没有通过稳健性检验,而且方程中已经包含表示经营性活动的变量。

因而,最后用于分解的变量不包括上述三个。

②该方法的基本思想并不复杂:将收入决定函数的某一个自变量(例如X)取样本均值,然后再将X的平均值和其他变量的实际值一起代入收入决定函数,推测出收入数据,并且计算对应于这个收入的不平等指数,记作I’。

显然,I’中已经不包含X的影响了。

于是,我们可以将I’与根据真实数据计算出的收入差距(I)之间的差作为X对于收入差距的贡献。

如果将X取了均值后,收入差距缩小了,说明X是扩大收入差距的因素,它对收入差距的贡献为正;相反,如果X取了均值后收入差距反而扩大了,那么,X就是缩小收入差距的因素,它对收入差距的贡献就是负的。

可以看出,当根据收入决定函数推测X平均值下的收入数据时,其他每个变量的取值是不唯一的,可以是实际值也可以是平均值,这样便会得到不同的收入推测数据。

WIDER的Java程序考虑了全部可能的变量取值组合,将X变量贡献的平均值作为最终结果。

③我们所说的第一轮分解是指这样一种情况,考察X的贡献时,其他变量都取实际值。

④这里指在统计意义上对调整R平方的贡献比较大,调整R平方经常被用来衡量一个模型的解释力度。

三收入差距的分解
在收入差距的形成过程中,一个因素对于收入差距的贡献取决于两个方面,一是这个因素与收入的相关系数,二是这个因素本身的分布有多不平等。

给定一个因素与收入的相关系数,这个因素本身的分布不均程度越严重,它对收入差距的贡献也越大。

而给定一个因素的分布不均程度,它与收入的相关系数越大,它对收入差距的贡献也就越大。

反过来说,如果一个因素的分布完全平等,或者这个因素与收入完全无关,那么,它对收入差距的贡献都为零。

这就是基于回归分析的收入差距分解方法的基本原理。

用于进行回归分解的收入决定函数要求各个解释变量都是显著的(至少在10%的显著性水平上);无论从统计学意义还是经济学意义上来说,也只有显著的变量才会对收入和收入差距起到决定性的影响。

根据这个原则选择变量,并对虚拟变量进行归并,我们最终得到了20个可用于分解的变量。


针对夏普里值过程的实际运用,联合国世界发展经济学研究院(UNU-WIDER)已经开发出了一个
Java程序,可以方便地用来进行收入差距的分解。

但是,由于夏普里值分解涉及到很多轮的计算,因此,
每增加一个变量,该程序的计算量将呈几何级数增长;当变量超过10个时,由于运算量过大,经常无法得到结果。

因而,本文对收入差距决定因素的分解将采取两个步骤:首先,根据夏普里值过程的基本思想,②运用人工方法进行第一轮分解,③考察20个变量各自的贡献大小;其次,根据变量对调整R平方的贡献大小,遴选出10个较为“重要”的变量,④运用上述Java程序分解出这10个变量的贡献,并与第一个步骤的结果相比较。

(一)残差的影响与模型解释力度
为了分析收入差距而不是收入的对数的差距,我们需要写出收入变量y的决定函数:
y=exp(!0)・exp(!1x1+!2x2+…+!KxK)・exp(虚拟变量)・exp(")
(2)
在该式中,exp(!0)是一个常量,当运用收入差距的相关指标时,它能够从方程中去掉而不会产生任何影响(Wan,2002)。

对于残差"的影响,我们可以通过计算初始收入y的差距与假设"=0时的收入差距之间的差来得到(万广华等,2005)。

而一旦我们确定出了残差"的影响,总的收入差距和残差引起的收入差距之间的差就是收入决定函数中自变量的影响,因此,残差的作用可以表述为此函数包含
教育对地区内收入差距的贡献:来自上海微观数据的考察
南方经济2007年第5期
的变量所不能解释的收入差距部分。

换句话说,残差影响代表了被排除在外的变量对收入差距的作用。

在理想的状态下,残差的影响为零,这时总收入差距几乎100%都能被解释,这需要收入决定函数达到完美的拟合。

一般来说,残差不为零是通常情况而不是例外。

我们用残差影响与总收入差距的比率来表示没有被解释的收入差距部分,而1减这个比率就表示得到解释的收入差距部分,反映了这个模型起作用的程度。

使用基尼系数这一指标,从表2来看,当使用20个解释变量时,我们能够解释60.24%的总收入差距;而当使用10个解释变量时,也有54.15%的收入差距得到解释。

表2总收入差距和被解释比例
情形20个变量10个变量总基尼系数
0.410
0.410
自变量
0.247
0.222
残差
0.163
0.188
被解释比例
=100×(1-残差/总数)
60.24
54.15
影响程度
(二)20个变量和10个变量时的分解结果
以下我们分别使用基尼系数、对数离差均值(GE

)和泰尔指数(GE1)三个指标对总的收入差距进行分解。

表3是20个变量时的人工分解结果,而表4则是运用上述Java程序进行分解所得到的结果。

根据变量对收入的解释力的大小,我们遴选出的10个变量分别为:地区虚拟变量,家庭规模,家庭劳动力人口的比重,劳动力平均年龄,劳动力平均受教育年限,家庭拥有的房子数量,丈夫失业,妻子失业,第二代表320个变量时的分解结果
变量
劳动力平均年龄
劳动力平均受教育年限家庭劳动力比重
丈夫从事自己经营的活动妻子失业
妻子所在行业
受过培训的劳动力人数丈夫失业
地区虚拟变量
丈夫所在行业
妻子是党员
丈夫所在单位
家庭拥有房子的数量
妻子所在单位
丈夫是党员
户主是男性
第二代人有失业
丈夫是外地户籍
妻子是外地户籍
家庭规模
Gini
18.26
12.52
11.28
7.46
6.32
5.34
5.16
4.95
5.17
4.53
3.59
2.93
3.49
2.64
1.67
1.37
0.83
1.00
0.31
1.19
相对影响(%)
GE0
18.64
11.34
9.50
7.10
7.62
5.30
5.28
6.17
5.61
4.47
3.70
3.02
2.99
2.73
1.88
1.27
1.53
1.09
0.41
0.35
GE1
16.37
14.29
12.48
7.49
6.14
5.57
5.77
4.81
4.69
4.31
3.36
3.12
2.23
2.82
1.99
1.48
1.21
1.30
0.34
0.25
Gini
1*








10
11
13
12
14*
15
16
19
18
20*
17*
排序
GE0
1*








10
11
12
13
14*
15
17
16
18
19*
20
GE1
1*








10
11
12
14
13*
15
16
18
17
19*
20
相对影响
17.83
12.79
11.18
7.39
6.67
5.42
5.41
5.28
5.16
4.46
3.56
3.03
2.95
2.73
1.84
1.38
1.16
1.13
0.35
0.28
排序
1*








10
11
12
13
14*
15
16
17
18
19*
20*
平均
说明:*号表示变量贡献为负,是缩小收入差距的因素。

①在基于回归分析的收入差距分解中,变量的贡献为负表明较富的人(家庭)更可能拥有不利于收入提高的因素。

劳动力平均年龄的贡献为负表明,如果我们承认该变量对家庭收入的影响是负的(这也是前文收入决定函数的估计结果),那么,富裕家庭的劳动力平均年龄较大。

人有失业,丈夫从事自己经营的活动。

从表3和表4中可以发现,不同收入差距指标下的分解结果并不完全相同,这并不奇怪,因为不同的指标对应着不同的社会福利函数以及不同的对收入差距厌恶的假定,而且在不同的指标下,对Lorenz曲线不同部分的重要程度的定义也不同。

由于使用不同指标得到的分解存在一些不一致性,我们可以选择一种特定的指标,或者利用不同的指标(仅适用于相对影响)所得结果的平均来进行讨论(万广华等,2005)。

表3和表4最后两列是对三种指标的分解结果求平均以后每个自变量的相对影响及排序。

我们把全部被解释部分的收入差距作为分母来计算不同因素的相对影响,所以,不同因素的影响之和为100%。

以下我们主要根据平均相对影响来进行分析和讨论。

表4
10个变量时的分解结果


劳动力平均受教育年限丈夫从事自己经营的活动家庭劳动力比重地区虚拟变量妻子失业丈夫失业
家庭拥有房子的数量家庭规模劳动力平均年龄第二代人有失业
Gini
20.2811.7915.2710.788.016.507.988.628.622.15
相对影响(%)
GE022.7315.7814.3210.7011.789.377.195.980.812.96
GE121.6718.8914.699.3510.138.187.336.200.992.56
Gini13247986510
排序
GE01235467810*9
GE112354678109
相对影响21.5615.4914.7610.289.988.017.506.932.942.56
排序
12345678910
平均
首先我们来比较一下人工分解(也即夏普里值过程的第一轮)和Java程序分解(也即完全意义上的夏普里值过程)得到的结果是否一致。

可以看出,表4排名前十位的变量,有七个在表3中也排在前十位。

而且,除劳动力平均年龄外,其余九个变量的次序在两种情形下也大体一致。

两种分解得到的劳动力平均年龄的贡献差异非常大,在人工分解时排名第一且贡献为负,①而在Java分解时则有正向的贡献而且排名第九位。

因而,我们对这个变量的解释必须慎重,幸好该变量的政策含义并不强。

此外,值得一提的是家庭规模变量,尽管在两种分解下的贡献一为负一为正,但从名次来看,该变量在20个变量中排名倒数第一,而在10个变量中则排名倒数第三。

也就是说,不论富裕家庭的规模是大是小,这一变量对于上海市的收入差距总是相对不重要的。

的确,在上海这样一个现代化的城市里,没有人会相信家庭规模是造成收入差距的重要变量。

两个分解中表现不一致的变量,是因为它们受到了表4中被省略的变量的影响,因此,我们将不对这些变量加以讨论。

而对于其他变量而言,即使省略了一些不太重要的收入决定因素,这些变量对收入差距的贡献度排名仍然是稳健的。

总的来说,人工分解和Java分解得到的主要结果是一致的。

由于Java分解是完全意义上的夏普里
教育对地区内收入差距的贡献:来自上海微观数据的考察。

相关文档
最新文档