包含认知能力的教育回报率估计——基于CHIP2007年数据的实证研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
教育与经济2016年第1期
包含认知能力的教育回报率估计
王子涵1,王小军2,1
(1.湖南大学经济管理研究中心,湖南长沙410006;2.夏威夷大学经济系,火奴鲁鲁HI96822)
摘要:利用2007年进行的中国家庭收入调查(CHIP )中的城镇样本,本研究借鉴现代人力资本理论
研究的新方法,以解决教育回报率估计中由于劳动者能力变量缺失导致的内生性问题。
采用劳动者高考分数作为认知能力的衡量指标,对比高考分数相近的劳动者的受教育水平对其劳动收入的影响,以得出教育回报率的准确估计。
研究结果表明,教育回报率因为能力变量的缺失确实存在被高估的情况,且认知能力对劳动者收入具有正向作用。
关键词:教育回报率;认知能力;高考分数中图分类号:F08;G40-054文献标识码:A 文章编号:1003-4870(2016)01-0039-08
作者简介:王子涵,男,湖南大学经济管理研究中心硕士研究生,主要研究方向为劳动经济学与人力资本;王小军,男,夏威夷大学经济系副教授(终
身教授),湖南大学经济管理研究中心特聘教授,研究领域为货币经济学、中国劳动力市场转型和教育回报率。
作者感谢北京师范大学李实教授及其科研团队主持的中国家庭收入调查(China Household Income Project )项目。
收稿日期:2015-11-12
——基于CHIP2007年数据的实证研究
一、引言
人力资本是指劳动者对自身教育、培训、实践经验等方面的投资而获得的知识与技能的积累,以期获取更高的生产技能,从而在劳动力市场中获得更高的收入[1][2]。
作为对人力资本最主要的投资,教育投资对收入具有重要影响。
人们普遍认为具有高学历的劳动者具有高生产力,可以创造更多价值。
加强对教育的投资不仅能给个人带来人力资本和收入的增加,同时也能够减少贫困、缩小贫富差距、促进经济和谐发展,尤其是在像中国这样的发展中国家,更是如此。
因此,对人力资本投资回报率的研究对于理解人力资本在收入决定中的作用至关重要,同时还有助于理解劳动力配置的高低,可以为政府制定教育政策、收入政策提供理论支持。
已有的关于人力资本投资与收入水平的研究大部分都采用最小二乘法(OLS )回归分析来估计教育回报率,然而由于能力变量的缺失,在最小二乘法中存在内生性问题。
理论上,由于具有高能力的劳动者获取高
收入的可能性更大,而他们在教育方面也更可能获得更高学历,这将导致教育回报率的高估[3][4]。
在国外对教育回报率的研究中,传统上存在三种尝试消除或减小这种偏差的方法:(1)工具变量法(IV ),即选取和个人教育水平密切相关且与能力并不相关的变量。
Card (1999)利用教育系统的发展作为工具变量,所估计的教育回报比OLS 估计高出20%-40%[5]。
在Li 和Luo (2004)对中国城镇教育回报率的研究中,为了控制不可观测的能力异质性和测量误差,对于所有女性样本,选取女性是否有兄弟、兄弟的数量作为工具变量,选用两阶段最小二乘法(2SLS )和广义矩法(GMM )来估算教育回报率,其中广义矩法估算结果达到了16.9%,而不控制能力因素的最小二乘法估算的教育回报率为8.9%,该结果显示最小二乘法并没有高估教育回报率,反而出现了低估的现象[6]。
根据Griliches (1977)的研究,之所以存在低估的结果的一个可能的解释是在最小二乘法中,不可观测的能力造成的误差相对较小,而由测量误差引起的教育回报率系数偏小的效应则相对较大,这样在工具变量法中得到的教育回报率将会大
39
于最小二乘法中得到的结果[4]。
(2)双胞胎法。
该方法认为同卵双胞胎具有相同的遗传基因、家庭背景和成长环境,因此他们将具备相同的能力。
如果双胞胎具有相同的能力禀赋,则可以通过估计双胞胎在收入水平、受教育程度和经验水平的不同,来获取消除能力误差影响的教育回报率的估计。
Ashenfelter和Rouse (1998)使用近700个同卵双胞胎的数据,估算修正能力异质性的教育回报率,其研究结果表明,普通最小二乘可能高估教育投资回报率[7]。
(3)代理变量法。
该方法尝试在收入决定方程中加入能力的可能代理变量,从而控制由不可观测的能力的异质性带来的误差。
该方法最早由Griliches和Mason(1972)提出,他们在研究中选取1964年的美国人口调查(CPS)中第二次世界大战后退伍军人的样本,将武装部队胜任能力测试(AFQT)分数作为衡量能力的代理变量,加入收入决定方程并估算教育的投资回报率。
回归结果显示,加入能力代理变量后,教育回报率显著下降,而该代理变量系数显著大于零,这说明采用普通最小二乘法教育回报率会被高估[8]。
虽然以上三种方法被广泛使用,但是它们各有各的不足:工具变量法受制于工具变量的选取,选取一个合适的工具变量通常是困难的,而且不同的工具变量得到的估计结果有时差别会很大[9];代理变量法中所选取的替代个人能力的变量,例如智商、考试成绩等,由于考试分数也受到其他因素的影响,并不能很好地代表劳动者个人能力,同时,这些所谓的“能力”是否在劳动市场上有回报本身还是一个正在被研究的问题;而双胞胎法对于数据有较高要求,双胞胎样本的可获得性较低,并且有研究表明双胞胎的受教育程度有可能并不是随机的[10][11],因此其结果也同样可能受到内生性的影响。
近年来,有学者利用较新颖的、具有革命意义的方法尝试去除不可观察的能力对教育回报率的影响。
Dale和Krueger(2002)研究了在美国进入更好大学是否能带来额外收益,他们利用学生申请大学的情况和被录取的情况,将申请了类似大学且被其中类似大学录取的学生归于同组并认为他们是具备相同能力的个体。
在回归分析中加入代表不同能力分组的虚拟变量后,能力偏误将被修正,从而可以无偏估计进入更好大学所获得的额外收益[12]。
这种方法从原理上接近于双胞胎法但是对数据的要求不同。
本文采取类似的方法,用高考分数筛选出能力相同或者相近的个体,将其归入同组,并用不同的虚拟变量来代表能力相同或相
近的劳动者,将虚拟变量加入到回归方程中,这样便排除了劳动者个人能力对于教育回报率的影响。
二、模型设定和数据
(一)模型设定
应用最为广泛的人力资本收益率模型是Mincer (1974)的人力资本收入函数(Human Capital Earnings Function)[13],其基本表达式如下:
LnINC=β0+β1EDUC+β2EXPR+β3EXPR2+u(1)
在上式中,INC代表劳动者的工资收入,它只衡量劳动者的劳动收入,而不包含其它如资本性收入或转移支付,这是由对其自身的人力资本投资决定的。
人力资本投资的两个主要形式便是教育投资和在工作实践中经验的积累。
EDUC代表受教育年限或是否接受过高等教育,EXPR代表工作经验(为了衡量劳动者收入和工作经验的非线性关系,加入了平方项),u代表随机干扰项。
系数β1即为劳动者从正式的教育中获得的个人收益率,即教育回报率;β2,β3可以构成劳动者从工作经验中获得的人力资本的个人收益率。
Mincer方程提供了一个简洁、便于进行人力资本各种比较的方法,同时它对数据的要求较低,所以至今在人力资本回报率的研究中仍然被广泛采用[14]。
在Mincer的人力资本收入函数中,普遍使用的方法是普通最小二乘法,在OLS估计中因为测定劳动者能力变量的缺失,会造成教育回报率估计的偏误。
假设我们实际的人力资本收入方程如下:
LnINC=β'0+β'1EDUC+β'2EXPR+β'3EXPR2+β'4ABILITY+u'
(2)在实践中,因为能力变量ABILITY往往是不可观测的,我们只能估计方程(1),而ABILITY被随机干扰项囊括。
因此,方程(1)中的估计会造成教育回报率的高估,这是因为拥有较高能力的劳动者,也即变量ABILITY的值越高的样本,更可能获得较多的教育。
如果能控制能力对劳动者收入的影响,那么我们便可以获得教育回报率的无偏估计。
本文利用高考分数来控制能力对劳动者个人收入的影响。
高考,即普通高等学校招生全国统一考试,是我国最重要的全国性考试之一,高考不仅是高中毕业生进入大学接受高等教育的最主要的途径,而且是对结束了基础教育以后的青年人所进行的大规模的、基础性的社会分工。
高考不仅在很大程度上决定个人将来的职业方向和收入水平,它同时也关系到我国宏观经济的发展和社会的稳定。
我国政府对高考十分重视,对高考执行严格
40
的管理和保密工作,同时由资深命题人进行高考命题以保证题目的科学性,因此高考具有很高的可信度和区分度,可以公平、客观地衡量考生在高中阶段学业水平的高低,这样高考成绩便可以客观地反映考生的学习能力。
虽然高考分数测定的主要是劳动者在其青年时期学习能力的高低,但是因为劳动者的学习能力在将来不会发生很大程度的改变,本文假设劳动者在其青年时期的学习能力与其进入劳动力市场之后的学习能力不会发生显著的改变。
另外,因为高考是一种选拔性考试,考生根据其学习能力进入与其学习能力相符的高等学校接受教育,分数越高的考生会进入质量更高的高等学校继续深造,因此高考分数也可以用来控制高等教育异质性对劳动者收入的影响。
因为本文中仅使用受教育年限或是否接受过高等教育作为教育水平的衡量指标,没有考虑教育异质性的问题,加入高考分数可以在一定程度上控制教育异质性对劳动收入的影响。
选用高考分数可能会引起的一个问题是,这里的高考分数是由样本自己报告的,而非从官方记录获得,即报告的高考分数可能会和真实的分数有误差,但是我们认为样本主观上并不存在虚报高考分数的动机。
因此,样本中报告的高考分数质量是可以接受的,具有充分的研究利用价值,可以作为衡量劳动者个人能力的指标。
在实际应用中,我们往往并不假设高考分数就是能力的衡量指标,获取高分的考生便具有高能力,即便两个能力完全相同的学生在考试成绩方面也会有所差异,考试成绩会受到一定随机因素的干扰。
我们放宽之前的假设,认为高考分数衡量的是带有随机干扰项的劳动者能力。
这样,如果直接将高考分数加入到回归方程中,我们得出的能力因素便会存在由随机干扰项引起的偏误。
在这种情况下,对于在相同年份、相同省份,参加同一类型高考的考生,如果他们的高考分数处在同一分数段之中,我们可以认为他们具备相同的,或者至少是相似的能力,这在控制能力变量的同时减小了随机干扰项引起的误差。
为了观测大学质量对收入的影响,Dale和Krueger(2002)的研究将申请大学和录取情况相似的观测值分入同组,以此代表能力相同的个体,并在回归方程中加入代表各组的虚拟变量以控制不可观测的能力因素对收入的影响[12]。
本文采取类似的方法,对高考分数处于同一分数段的个体进行分组,再将代表各个组的虚拟变量加入回归方程,这样可以控制缺失的能力变量和随机干扰项引起的偏误。
(二)数据介绍与处理
本文所采用的数据来自2007年中国家庭收入调查(China Household Income Project,CHIP)。
本文仅选取已公开的5000个城镇家庭信息,初始样本共包括14683个观测值。
2007年的CHIP问卷调查共包含9个省或直辖市,这9个省份分别是上海、江苏、浙江、安徽、河南、湖北、广东、重庆和四川,它们在一定程度上代表了中国的居民收入现状。
CHIP2007调查中收集到包括家庭成员有关收入、工作和个人信息等方面较全面的数据。
除了我们重点关注的收入,在个人信息方面,本文选取正规教育年限和是否接受过高等教育作为教育水平的衡量指标。
CHIP2007调查涉及了最高教育年限的问题,被调查的家庭成员报告了其所受教育年限的信息(单位为年,不包括跳级和留级年数)。
另外,我们通过劳动者报告的最高教育程度推算出是否接受过高等教育,建立虚拟变量。
作为人力资本收入方程中的另外一个重要变量,工作经验并未出现在问卷调查中,为了获得工作经验,我们通过样本年龄和受教育年限来估算工作经验,本文假设所有劳动者均从6岁开始接受教育,而受教育之后立即投身于劳动力市场,所以工作经验的估算方法为“工作经验=年龄-受教育年限-6”。
此外,劳动者性别、所在省份、所从事行业和所在单位所有制情况均可作为控制变量加入到回归方程中。
本文仅选取样本中有工作收入的劳动者,因此对于调查问卷中的问题,“过去一周您是否从事过一小时以上有收入的工作?”若被访居民回答回答“是(包括自我经营和工资性工作者)”,或者回答“否”但是对于问题“您过去一周为什么没有从事过一个小时以上有收入的工作?”回答“有工作而暂时没上班(包括带薪休假和不带薪休假)”,则认定其有工作收入。
这样本文就排除了样本中的失业者、不领工资的家庭帮工、退休人员以及学生。
同时对于劳动者的职业类型,若观测值为“自我经营”或者“其他”,我们也将其删除,这是因为我们很难分辨自我经营者和其他职业类型的收入是工资性收入还是利润收入。
这样,本文中的收入就代表了工资性劳动者的工资、奖金、津贴和实物折现,它可以很好地代表劳动者在当前从事的工作的劳动收入。
另外,本文仅保留16-60岁的样本,且删除对于收入、受教育年限、行业水平和工作单位所有制等变量中存在缺失的观测值。
经过整理,总体样本共包含6335个观测对象。
为了衡量样本个体能力之间的差异,本文通过将
41
高考分数相近的个体归入同一小组,并将代表该组的虚拟变量加入回归方程的方法来控制能力对个体劳动收入的影响。
虽然名义上高考是全国统一考试,但部分地区在不同时间已先后采用自主命题的试卷,因为不同省、市、自治区的不同类别的高考试卷在不同年份中均互不相同,即便在高考试卷相同的省份之间,各省的试卷评判标准也并不相同,所以缺乏统一的标准来衡量高考分数,这对通过高考分数分组造成了困难。
CHIP2007年调查问卷问及了被调查者的高考分数、最后一次参加高考的年份、省份,以及参加高考的类别(包括文艺体育类、文史类和理工类),这为利用高考分数来控制个体能力带来了可能。
为了解决缺乏统一衡量标准的问题,我们将参加了相同年份、相同省份、相同类型的高考,并且分数相近的劳动者归为一组,并用虚拟变量来代表不同的组。
因为这里分组的目的是观察组内成员受教育年限或者是否参加高等教育的不同对劳动收入的影响,所以如果一组之内所有的观测值的关键变量相同(包含只有一个变量的情形),本文将其删除。
我们选取100分和50分两个区间来进行分组操作,下面以关键变量为受教育年限且分组区间为100分为例,当观测值的高考分数处于100分之内时,我们认为他们具有相似的能力,当每组存在两个或者两个以上观测值,且各观测值的关键变量互不相等时,我们保留此分组。
同时,在对观测值分组时,我们需保证每组内所有观测值均处于该分数区间之内,若存在观测值与其他两个观测值均处于100分区间之内,但是这两个观测值相差大于100的情况时,我们在保证组内观测值数量最大化的原则下,保留与中间观测值离差较小的观测值。
表1的分组示例展示了对于虚构的12个观测值如何根据其高考情况进行分组,将其分入4个小组。
观测值1于1996年在上海参加了理工类的高考,成绩是560分,但是在样本中只有该观测对象参加了该年该地该科的高考,无法进行分组,所以直接排除观测值1。
观测值2、3、4于1997年在河南省参加了理工类的高考,其中观测值2、3的高考分数差别在100分之内,并且其受教育年限并不相同,所以将其分入A组;观测值4无法分组,故排除。
观测值5、6、7、8均于1998年在上海市参加了文史类的高考,观测值5无法分组,故排除;观测值6和7、7和8均处于100分之内,但是6和8的差值超过100,所以观测值6和8无法分入同组,因为7和8相比7和6之间具有更小的差值,我们只能保留观测值
7和8,分入B组,排除观测值6。
观测值9、10、11、12于1999年在湖北省参加了理工科的高考,观测值9和10、11和12分别处于100分之内,但是观测值9和10具有相同的受教育年限,无法观测受教育年限不同与收入之间的关系,故而排除观测值9、10,保留观测值11、12,分入C组。
在本示例中,12个样本共构成3个小组,因此将设3个虚拟变量来分别代表这三个小组。
对于分组区间为50分或关键变量为是否接受过高等教育时,参照同样的方法进行分组。
在总体样本的6335个观测值中,共有2393个劳动者参加过高考,我们称之为高考样本,因为本文的分组均是通过劳动者高考的时间、地点、科目以及分数进行分组,所以全部分组样本均取自于高考样本。
去除高考情况的缺失值以及对现有样本进行分组操作之后,关键变量为受教育年限时,分组区间为100分和50分的分组样本分别包含1138和826个观测值,被分别分入394和332个小组中,我们称它们为“分组样本1”和“分组样本2”。
关键变量为是否接受过高等教育时,以上两个区间的分组样本共包含410和249个观测值,被分别分入138和99个小组中,因为高考样本包含2393个观测值,如果分组样本包含的观测值的数量仅占高考样本的10%左右,该分组样本可能无法可靠地代表高考样本,所以关键变量为高等教育时,我们仅选取分组区间为100的分组样本,我们称之为“分组样本3”。
表1分组示例
编号
1
2
3
4
5
6
7
8
9
10
11
12
高考
时间
1996
1997
1997
1997
1998
1998
1998
1998
1999
1999
1999
1999
高考
省份
上海市
河南省
河南省
河南省
上海市
上海市
上海市
上海市
湖北省
湖北省
湖北省
湖北省
高考
科目
理工类
理工类
理工类
理工类
文史类
文史类
文史类
文史类
理工类
理工类
理工类
理工类
高考
分数
560
520
540
670
350
465
530
570
487
490
603
630
受教育
年限
16
16
12
16
13
16
15
16
15
15
12
19
分组编号
排除
A
A
排除
排除
排除
B
B
排除
排除
C
C
此外,劳动者在校内的表现可以作为劳动者能力的衡量指标,在CHIP2007调查数据中,劳动者被问到“你最后离开学校时在班上的成绩如何?”,对应的待选选项为“1.很好,2.比较好,3.一般,4.比较差,5.很差”,为了更好地控制能力对劳动者收入的影响,我们可以在
42
根据学校内的平时成绩建立虚拟变量并将其加入到方程中,以控制劳动者能力对收入的影响。
由于在样本中仅有两个观测值选择“很差”,所以将“比较差”和“很差”合并,用同一个虚拟变量表示。
除了以上核心变量外,我们根据已有文献还在回归方程中加入其它控制变量,例如性别、是否少数民族、所在地区、所在行业以及工作单位所有制情况。
我们可以根据样本观测值个人信息建立代表性别和少数民族的虚拟变量,来检测收入水平之间的性别差异,以及少数民族是否在收入分配中有明显差别。
加入代表地区的控制变量可以控制不同地区经济发展水平和物价水平对劳动者收入的影响。
同样,劳动者所处行业
变量
月工资收入(元)
月工资收入的自然对数受教育年限(年)
高等教育
年龄(岁)
工作经验(年)
男性
少数民族
沿海地区
中部地区
西部地区
竞争性行业
垄断性行业
事业性行业
机关团体
其他行业
公有制单位
私有制单位
外资单位及其他
成绩很好
成绩比较好
成绩一般
成绩比较差或很差总体样本
(N=6335)2229.357
(2032.364)7.470
(0.690)12.236
(3.165)0.435
(0.496)40.023
(9.704)21.787
(11.225)0.561
(0.496)0.010
(0.101)0.499
(0.500)0.298(0.457)0.204(0.403)0.539(0.498)0.194(0.395)0.158(0.365)0.087(0.281)0.022(0.148)0.609(0.488)0.312(0.463)0.079(0.270)0.144(0.351)0.426(0.495)0.413(0.492)0.017(0.130)
高考样本
(N=2393)
2737.350
(2340.740)
7.689
(0.678)
14.512
(2.638)
0.806
(0.395)
36.396
(8.565)
15.883
(9.596)
0.556
(0.497)
0.013
(0.115)
0.489
(0.500)
0.274
(0.446)
0.237
(0.425)
0.464
(0.499)
0.175
(0.380)
0.219
(0.414)
0.116
(0.320)
0.026
(0.159)
0.642
(0.479)
0.266
(0.442)
0.092
(0.288)
0.245
(0.430)
0.513
(0.500)
0.238
(0.426)
0.004
(0.061)
分组样本1
(N=1138)
2712.240
(1833.674)
7.701
(0.677)
14.698
(2.802)
-
35.570
(8.194)
14.873
(9.224)
0.555
(0.497)
0.010
(0.098)
0.500
(0.500)
0.338
(0.473)
0.162
(0.368)
0.499
(0.500)
0.165
(0.372)
0.214
(0.410)
0.108
(0.310)
0.014
(0.118)
0.629
(0.443)
0.267
(0.443)
0.104
(0.305)
0.248
(0.432)
0.526
(0.500)
0.223
(0.417)
0.003
(0.051)
分组样本2
(N=826)
2679.366
(1759.045)
7.701
(0.650)
14.762
(2.790)
-
35.334
(8.117)
14.573
(9.118)
0.550
(0.498)
0.008
(0.092)
0.477
(0.500)
0.350
(0.477)
0.173
(0.379)
0.499
(0.500)
0.155
(0.362)
0.218
(0.413)
0.116
(0.321)
0.012
(0.109)
0.634
(0.482)
0.268
(0.443)
0.098
(0.298)
0.251
(0.434)
0.530
(0.499)
0.217
(0.412)
0.002
(0.049)
分组样本3
(N=410)
2351.244
(1644.306)
7.543
(0.702)
-
0.605
(0.489)
37.500
(8.791)
17.737
(9.719)
0.551
(0.498)
0.017
(0.130)
0.517
(0.500)
0.300
(0.459)
0.183
(0.387)
0.583
(0.494)
0.178
(0.383)
0.151
(0.359)
0.083
(0.276)
0.005
(0.070)
0.598
(0.491)
0.324
(0.469)
0.078
(0.269)
0.173
(0.379)
0.515
(0.500)
0.307
(0.462)
0.005
(0.070)
表2描述性统计
注:表中所列数值为该变量的样本均值,括号内为该变量的样本方差。
43
及其工作单位所有制情况的不同也会影响其收入水平,因此我们也需要加入虚拟变量来控制这种影响。
CHIP数据中包含20个行业,按照不同行业的特点将其分为5类:竞争性行业、垄断性行业、事业性行业、机关团体以及其他行业。
CHIP数据中共包含16个不同的工作单位所有制类型,根据不同所有制中占主体的成分,将其分为3类,它们是公有制单位、私有制单位和外资及其他所有制形式。
表2展示了回归方程中用到的所有变量在总体样本、高考样本和分组样本1-3中的描述性统计。
三、实证分析
表3报告了对总体样本和高考样本的人力资本收入函数的最小二乘(OLS)估计结果,此回归中仅加入劳动者在校表现作为能力控制变量。
分析结果显示,在总体样本中教育年限的教育回报率为5.6%,并且在1%的水平上显著(回归1)。
这意味着每增加一年的教育,劳动者劳动收入平均增加5.6%。
高等教育的教育回报率为38.1%,也非常显著,这表明接受过高等教育的劳动者比未接受过高等教育的劳动者收入平均高出38.1%(回归2)。
对比其他文献,John Giles等(2015)利用中国城市劳动力调查数据以及最小二乘法得出,中国的教育回报率为9.6%,高等教育回报率为49.8%[15]。
我们这里的估计值偏低的主要原因可能是由于他们的样本仅包含5个省会级大城市而我们的样本还包含了中小城市。
由回归(3)和(4)的结果可知,在高考样本中,受教育年限的教育回报率为5.1%,而高等教育的回报率为39.7%,均非常显著。
因为高考样本和分组样本仅选取参加过高考的观测对象,所以其收入、受教育年限、工作经验等关键变量和总体样本有所差异(见表1),这可能对回归结果产生影响。
但是从回归结果来看,由总体样本和高考样本估算出来的教育回报率以及高等教育回报率并未存在显著差异。
从这个角度来说,高考样本应该还是能够代表总体样本的。
对分组样本1-3,即按高考分数所处区间分组的样本的回归结果展示在表4中。
对于每个分组,我们都比较了不含分组虚拟变量和包含分组虚拟变量的回归结果。
由回归5的结果可知,在分组样本1中,未加入分组虚拟变量的教育回报率为2.9%,在1%的水平上显著,这意味着劳动者多接受一年教育平均可以增加2.9%的劳动收入,这个结果小于高考样本的教育回报率,这是由于我们在分组过程中只考虑分数接近的观测值,当有观测值的高考分数很高或很低时往往无法分组,而此时观测值的受教育水平往往会比较接近,样本变得更均质了,在这种情况下教育回报率往往变小。
在回归方程6中,加入分组虚拟变量后,教育回报率下降为2.1%,在10%的水平上显著,相比加入分组虚拟变量之前的教育回报率下降了28%。
这表明在能力因素缺失的人力资本收入函数中,教育回报率的确被高估了。
在未加入分组虚拟变量时,以教育年限衡量的教育回报率在分组区间为50分时为2.7%(回归7),且很显著。
然而,由回归8可知,在加入代表不同分组虚拟变量之后,教育回报率变小,且甚至无法在10%的水平上显著。
这同样说明未加入分组虚拟变量时的人力资本收入函数中,教育回报率被高估了。
回归9、10是对分组样本3的加入分组虚拟变量前后的方程,此时的关键变量为是否接受过高等教育,当不加入分组虚拟变量时,高等教育的回报率为29.4%,这表明接受过高等教育的劳动者比未接受过高等教育的劳动者的劳动收入平均要高29.4%。
当加入分组虚拟变量后,高等教育的回报率明显下降,只有25.2%,加
表3总体样本、高考样本的回归结果
被解释变量:月工资收入的自然对数
解释变量
受教育年限高等教育工作经验
工作经验的平方
成绩很好成绩比较好
成绩比较差或很差
F统计量R²
调整R²
样本量
总体样本
回归1
0.056***
(17.59)
0.019***
(7.33)
-0.00043***
(-7.44)
0.184***
(7.71)
0.129***
(7.73)
-0.083
(-1.45)
165.40
0.295
0.293
6335
回归2
0.381***
(20.80)
0.019***
(7.33)
-0.00047***
(-8.18)
0.167
(7.06)
0.108
(6.49)
-0.117**
(-2.08)
175.84
0.308
0.306
6335
高考样本
回归3
0.051***
(9.19)
0.035***
(7.57)
-0.00082***
(-6.60)
0.207***
(5.83)
0.149***
(5.01)
-0.095
(-0.49)
56.89
0.277
0.272
2393
回归4
0.397***
(11.58)
0.032***
(6.95)
-0.00076***
(-6.13)
0.194***
(5.53)
0.115***
(3.85)
0.103
(-0.53)
61.05
0.291
0.287
2393
注:(1)括号中的数值为t统计量;(2)***、**、*分别表示在1%、5%、10%显著水平上显著;(3)劳动者校内表现的基组为“表现一般”;(4)因篇幅有限,此表中省略了性别、少数民族、地区、行业类型、工作单位所有制等虚拟变量以及常数的参数估计值,下表同。
44。