2-7新型城镇化视角下农民工流向研究报告
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
.. . …
新型城镇化视角下农民工流向研究
——基于行政区划代码识别的农民工监测数据
国家统计局调查总队德洗、宝、亚卓
目录
摘要1
一、引言2
二、数据来源、数据清洗及农民工流向识别4
(一)数据来源4
(二)数据清洗5
(三)基于统计用行政区划代码的本地农民工流向识别8
三、农民工流向的探索性分析10
(一)农民工就业基本状况10
(二)农民工个体特征与流向分布13
(三)农民工家庭特征与流向分布16
四、农民工流向影响因素的实证分析17
(一)变量选择18
(二)模型简介19
(三)模型初选20
(四)RandomForest模型的进一步优化21
(五)模型评价和未来研究方向24
(六)模型结果分析24
五、研究结论及相关政策建议26
参考文献28
附录1 数据处理程序错误!未定义书签。
附录2 数据分析过程错误!未定义书签。
附录3 模型运行结果错误!未定义书签。
摘要
在利用关联信息对原始数据进行清洗的基础上,根据统计用行政区划代码的编码规则,将“本地”农民工按户籍登记地逐个识别,把省会城市、地级市、县市城区和建制镇等地区的“本地”农民工分别归类到相应地区类型中,进而将全部农民工的务工地点按地区类型划分为“大城市”、“中等城市”、“小城市”和“农村地区”四大类,据以研究农民工流向及其影响因素。
面对19666条人员信息的较大数据量,结合可视化技术的探索性分析结果,多方尝试传统统计模型和现代算法模型,最终根据预测性能优劣筛选出最优模型——随机森林模型。
实证研究结果显示,流入农村地区的农民工比重最高,中等城市是农民工最向往的就业城市类型;外出务工经历、所在县经济发展水平和所在村外出务工环境、就业行业和职业预期、年龄、受教育程度等均对农民工流向产生重要影响,且对流入到不同类型地区农民工的影响程度存在明显差异。
突出表现为:有外出务工经历的未婚青年农民工更倾向于到大、中城市就业;家中有接受义务教育在校生和需要赡养老人的农民工多倾向于在本地农村地区就业;具有不同就业预期的农民工所选就业城市也各有侧重。
最后,对加快推进以人为本的城镇化提出了相关政策建议。
关键词:行政区划代码数据清洗现代算法模型农民工流向
一、引言
城镇化是任何国家现代化过程中不可逾越的发展阶段,农民工则是目前条件下我国推进新型城镇化进程中不容忽视的重要力量。
大量农民工由农村进入城镇,缓解了城市劳动力资源不足,丰富了城镇服务市场,提高了城镇生活水平,极促进了城镇化发展;但同时也增加了城镇发展压力,甚至由于难以融入城镇生活而降低了城镇化发展质量。
为此,“十二五”规划明确提出要积极稳妥推进城镇化,优化城市化布局和形态,不断提升城镇化质量和水平;特大城市要合理控制人口规模,大中城市要加强和改进人口管理,继续发挥吸纳外来人口的重要作用,中小城市和小城镇要根据实际放宽落户条件,稳步推进农业转移人口转为城镇居民。
那么,这种政策安排是否顺应中国农民工空间迁移规律和实际流动特点呢?显然,回答这个问题,首先应对农民工迁移规律有一个清楚认识。
由于城镇化是人口由农村向城镇集聚、就业由农业领域向非农产业转移的过程,归根结底还是“人”的问题。
因此,从“人”出发,研究农民工个体决策行为,有助于加深对农民工流动规律的认识。
务工地选择是农民工个体决策行为的起点,是农民工整体空间流动的基础,直接制约着后续一系列行为特征。
因此,本文尝试从农民工输出地出发,以农民工输出大省——为研究对象,通过在微观层面上实证研究农民工流向及其影响因素,探索农民工空间流动规律,为制定更具针对性的城镇化政策、促进“以人为本”新型城镇化较快发展提供有益借鉴。
现有专门研究农民工务工地选择的文献并不多见。
在少有的几篇文献中,高
更和等(2012)根据省11个不同类型样本村的实证研究,发现农民务工目的地大分散、小集中,县和省外占较大优势,且年龄、家庭特征及其所处环境等是影响农民工务工距离选择的主要因素;家强等(2011)利用多项选择Logit( MNL) 模型对农民工就业地选择影响因素的实证分析显示,农民工的年龄、就业途径和交通便利程度对其务工地选择具有较大影响,且居住地经济发达的农民工多倾向于选择本地就业。
肖丽等(2010)对市农民工的研究表明,过半农民工选择近距离迁移,但长距离迁移农民工的职业类型较高,特别是具有特定专长、能够从事更高收入职业的农民工更有可能长距离迁移。
上述文献分别采用不同标准设定了农民工务工地选择围,如:本地和外地,本地县域、本省中小城市、本省大城市和省外,或直接将迁移距离变换后作为因变量。
样本数据则以小围问卷调查为主要来源,代表性有待考究。
建模方法以逻辑回归模型或者简单转化后的多元回归模型为主,该类模型因其对数据分布严格的假定与实际数据的分布特征存在显著差异,模型结果较易引起争议。
本文利用2013年农民工监测调查数据,分别采用多元logit模型、k最近邻、Adaboost(自适应助推法)、Bagging(自助整合法)、RandomForest(随机森林)和SVM(支持向量机)等模型进行建模,并根据预测精度选取最优模型,对农民工流向及其影响因素进行实证分析。
本研究的特点在于:一是在处理数据时,尝试利用行政区划代码对农民工流向进行识别,并以此为基础将农民工务工地具体划分为农村地区、小城市、中等城市和大城市四类,于国家城镇化政策中关于城市的划分标准相对应,使研究结果具有更广泛的适用性;二是在传统统计模型基础上引入现代算法模型,从数据本身出发,通过清洗过滤、模型分析,深入挖掘数据中蕴藏的经济规律,是利用现代数据挖掘方法开发常规调查数据的有益实践。
全文共分五部分,第一部分是引言,第二部分是数据来源、数据清洗和基于行政区划代码的农民工流向识别,第三部分是运用可视化技术探索性分析农民工流向及其特征,第四部分使用多种模型实证研究农民工流向及其影响因素,第五部分是研究结论及相关政策建议。
二、数据来源、数据清洗及农民工流向识别
(一)数据来源
本文所用数据,来源于国家统计局调查总队2013年的农民工监测调查。
调查样本以第六次人口普查为抽样框资料,以省为总体,采用分层、多阶段、PPS 抽样方法随机抽选,覆盖全省45个县市和47个市辖区的村委会(图2.1),不仅对全省具有代表性,也是全国农民工监测调查的重要组成部分。
调查对象包括抽中调查小区和抽中住户的所有住户成员。
调查容涵盖住户成员、农民工子女教育、劳动力就业、外出从业人员和本地非农务工人员以及本地非农自营和创业情况,全面反映了农民工数量、流向、结构等信息。
调查结果共取得4914个住户、19666个住户成员的个人信息。
图2.1 省农民工监测调查样本分布图
(二)数据清洗
根据研究需要,本文将“农民工”定义为农村户籍、年龄在16—60周岁之间、从事非农就业(包括外出从业、本地非农务工和本地非农自营)6个月及以上的劳动者。
由于农民工监测调查对象是抽中住户的所有家庭成员,不仅包括农民工,也包括家中的务农人员、在校学生和老人等,且庞大的数据量难免存在一些残缺数据和错误记录。
因此,在数据分析之前,应首先对原始数据进行清洗,根据关联信息处理残缺值和错误记录,并对不属于本文研究围的人员数据予以剔除。
数据清洗流程详见图2.2。
1.年龄筛选。
按照定义,农民工年龄界限设定为16—60周岁。
首先对原始数据库中住户成员按年龄进行筛选。
初步检查发现,“出生年月”指标存在80个缺失值,其对应的其他相关指标也几近全部缺失,难以提取有效信息,全部予以删除。
然后,以2013年12月为计算时点,以16周岁和60周岁为界,将人员数据划分为三部分。
其中,16—60周岁之间的住户成员是下一步数据清洗重点关注的对象。
16周岁以下和60周岁以上的住户成员虽然不属于本文农民工的畴,但能够体现出农民工的家庭特征。
2.劳动力筛选。
经过年龄筛选,初步得到16—60周岁的住户成员数据。
其中不仅包括劳动力,还包括在校学生、丧失劳动能力者、军人等非从业者。
为此,我们根据“是否在校学生”、“是否丧失劳动能力”、“本年度从事的主要职业”三个指标对数据进行再次清洗。
对于缺失值,如果能够从其他相关指标提取有效信息判断其可能取值,则进行填补;如果难以收集足够相关信息,则予以删除。
之后,根据上述三个指标取值,逐步剔除在校学生、丧失劳动能力者和军人,提取农村劳动力人员数据。
考虑到国外务工与本文研究联系不紧密,且人数仅有3人,也不具有代表性,一并剔除。
3.农民工筛选。
经过第二步清洗,得到16—60周岁在国就业的农村劳动力数据,其中既有非农就业者,也有农业劳动者。
为此,还需根据其从业行为和时间进一步清洗。
按同样思路对“本年度本地非农自营总时间”、“本年度本地非农务工总时间”和“本年度外出从业总时间”等指标进行缺失值处理和数据筛选后,提取2013年从事本地非农自营、本地非农务工或外出务工任一种非农就业活动6个月及以上的住户成员信息,最终形成农民工数据库,共计5563人,占农村劳动力的51.2%。
(三)基于统计用行政区划代码的本地农民工流向识别
研究农民工流向,首先应明确界定农民工流入地类型。
考虑到国家城镇化政策中的城市布局,将农民工流入地划分为大城市、中等城市、小城市和农村地区四种类型。
结合农民工监测调查的统计分类,大城市包括直辖市和省会城市;中等城市为地级市;小城市包括县市城区和建制镇;农村地区主要指乡及以下地区。
由于农民工监测调查对外出农民工的从业地区类型有详细记录,从而可以很方便地将其归并到上述四种类型,但对在本乡镇从业的本地农民工没有具体区分。
考虑到本地农民工占农民工总量的近半(47.0%),如何对其务工地点归类是一个值得思考的问题。
全部将本地农民工归为“农村地区”较为简便,但却有欠妥当。
一方面,“本地”是地域概念,相对应的是“外出”,与本文按地区类型划分“大、中、小城市”和“农村地区”的标准不在一个维度上。
另一方面,虽然同样登记为“本地”从业的农民工,但因其所处地区类型不同而可能存在较大差异。
如:省会城市辖区的村委会与县城一般乡镇的村委会,无论是经济水平还是就业环境均不可相提并论。
如果忽视这部分农民工的个体差异,全部归类到农村地区,有可能会造成研究结果的偏误1。
因此,我们对照前述四种务工地点类型,依据12位统计用行政区划代码,将本地(本乡镇以)自营或务工的农民工务工地进一步细分后对应归类,调整思路见图2.3。
1数据调整后模型结果较数据调整前预测精度提高了近10个百分点,也充分说明了这一问题。
图2.3:依据统计用区划代码调整数据思路图
具体方法是:利用农民工户籍所在地的12位统计用行政区划代码,首先根据2位市码将省会城市和其他地级市区分开;然后,根据2位县码识别出市辖区和其他县市;再次,根据3位乡码识别出街道办事处、城关镇和非城关镇的建制镇及其他普通乡级单位;最后,对于非城关镇的建制镇,进一步根据3位村码判省码 市码 乡码 41XX
县码
村码
其他
大城市 其他
其他
小城市 农村地区
其他
中等城市
小城市
农村地区
农村地区
其他
小城市
其他
小城市 农村地区 农村地区
断该农民工的户籍登记地是否是镇所在村委会。
根据区划代码全部识别完毕后,将户籍登记在市辖区的本地农民工,务工地类型记为省会城市(大城市);户籍登记在其他地级市辖区街道办事处的本地农民工,务工地类型记为地级市(中等城市);户籍登记在县市城区所辖街道办事处或城关镇的本地农民工,务工地类型记为县市城区(小城市);户籍登记在非城关镇的建制镇所在村委会的本地农民工,务工地类型记为建制镇(小城市)。
其余在本地就业的农民工,与外出到本乡镇以外村委会或其他地区务工的农民工一并归类到“农村地区”。
数据调整后,原有2617名本地农民工按照其户籍所在地,被重新定义和归类。
真正在农村地区务工农民工仅余1815人。
详细分类结果见表2.1。
调整后的农民工数据,将不再受地域局限,有助于纯粹从城市类型的角度研究农民工流向。
单位:人;%
三、农民工流向的探索性分析
(一)农民工就业基本状况
1.流向分布呈现出省以农村地区和小城市为主、省外以大中城市为主的特点。
经数据调整后,2013年农民工在大城市、中等城市、小城市和农村地区务工的人数分别占20.8%、26.8%、18.7%和33.7%(图3.1)。
除农村地区外,农民工进入中等城市务工的数量最多,其次是大城市,小城市最少。
从地域上看,主
要以省务工为主,占全部农民工的73.0%。
省又以在农村地区务工为主,占省农民工的45.6%;其次为小城市,占21.7%。
省外则以大城市和中等城市务工为主,分别占省外农民工的43.6%和43.4%。
图3.1 农民工流向分布情况
2.务工行业以建筑、制造和批发零售等劳动密集型行业为主,职业则
以生产运输设备操作人员和商业服务业人员为主。
从务工行业看(图3.2),半数以上的农民工从事的是建筑业和制造业。
除此之外,批发和零售业、居民服务修理和其他服务业、住宿和餐饮业以及交通运输、仓储和邮政业也是农民工比较集中的行业。
2013年,上述6大行业集聚了86.7%的农民工。
职业类型以生产、运输设备操作人员及其有关人员、商业服务业人员和不便分类的其他从业人员为主,合计占78.3%。
图3.2 农民工务工行业分布
3.大中城市劳动强度较高,收入也相对较高。
从工作强度看,不论是日工作时间还是月工作天数,大中城市的农民工劳动时间均高于小城市和农村地区。
大城市农民工平均每天劳动8.96个小时,平均每月工作25.3天,均高于农村地区日工作8.76个小时和月工作2
4.3天的水平。
虽然辛苦,但大中城市的农民工收入和就业待遇也明显优于小城市和农村地区。
2013年大、中、小城市和农村地区的农民工月均收入分别为2949.08元、276
5.27元、256
6.35元和2176.19元,依次递减。
不仅如此,相当比例的农民工还在大中城市得到了雇主提供的免费食宿。
调查显示,在中等城市务工的农民工中,36.4%享受到免费住宿,31.9%享受到免费伙食。
这一比例是四种地区类型中最高的,大城市紧居其后。
两者均显著高于小城市和农村地区。
(二)农民工个体特征与流向分布
1.年轻男性农民工更倾向于大、中城市。
2013年农民工平均年龄为37.04岁,其中男性占68.8%,女性占31.2%。
结合务工地来看,城市规模越大,男性农民工所占比例越高;越是接近农村地区,女性比例越高(图3.3)。
中国农村“男主外、女主”的传统思想依稀可见。
图3.3 性别差异与农民工流向
分年龄段看,大、中、小城市和农村地区农民工平均年龄分别为33岁、34岁、36岁和41岁,呈依次递增趋势。
青壮年劳动力,特别是20—30岁之间的新生代农民工更倾向于到大城市就业。
40岁以上中年农民工则相对更倾向于在农村地区和中小城市务工。
图3.4 年龄差异与农民工流向
2. 流向大城市的农民工一般具备较高文化程度,接受过非农技能培训的农民工也相对较多。
整体来看,农民工受教育程度以初中为主,占全部农民工的64.5%;其次是高中文化程度,占18.9%;大学专科以上文化程度占比较少,仅8.1%。
技能培训方面,只有30.5%的农民工接受过非农职业技能培训。
受教育程度和接受技能培训的差别,直接体现在务工地的不同。
随着城市规模扩大,大学以上文化程度农民工比例明显增加,并且在大城市中,接受过非农职业技能培训的农民工比例也明显高于其他城市。
图3.5 受教育程度与农民工流向
3. 户主及其配偶倾向在农村地区就近务工,子女更倾向于大、中城市。
从家庭角色看,户主及其配偶在农村地区务工的比例明显高于城市,43.7%的户主和50.6%的户主配偶选择留在农村地区务工。
其中,户主到大城市和中等城市务工的倾向性略高于户主配偶,但这种倾向远不及子女对大中城市的向往。
只有20.3%的子女(包含儿媳女婿)留在了农村地区务工,而前往大中城市的比例合计高达62.2%。
从婚姻状况看,65.7%的未婚农民工选择在大、中城市发展,表现出未婚人士对大、中城市的偏爱。
已婚农民工则恰恰相反,留在农村地区人员比例最高,为38.3%;前往大、中城市的已婚农民工合计才占42.7%。
图3.6 家庭角色与农民工流向
4.有外出务工经历农民工更倾向于大、中城市。
外出务工经历尤其是近期经历对农民工流向有直接影响。
上年(2012年)曾外出务工的农民工中,33.2%选择了大城市,40.0%选择了中等城市,22.7%选择了小城市,仅有4.1%留在了农村地区。
在2012年之前曾外出的农民工也呈现出类似特点,只是影响程度略有减弱。
图3.7 外出务工经历与农民工流向
(三)农民工家庭特征与流向分布
1.家中有在校学生和需要赡养老人的农民工,更倾向于就近在农村地区务工。
农村地区的农民工中,家有接受义务教育在校生和需要赡养老人的比例分别为35.0%和37.3%,明显大于其他城市类型(图3.8)。
特别是在大城市,有接受义务教育在校生和需要赡养老人农民工占比最低。
图3.8 家庭特征与农民工流向
2.大、中、小城市和农村地区农民工家庭非农就业程度依次加深。
为考察农民工家庭非农就业程度与务工地选择关系,对每个农民工家庭计算了本家庭农民工占家庭劳动力的比重。
结果发现,从大城市到农村地区,农民工家庭非农就业程度依次加深。
在大城市、中等城市、小城市和农村地区就业的农民工,平均家中分别有71.0%、74.0%、75.7%和78.9%的家庭劳动力从事非农就业。
四、农民工流向影响因素的实证分析
前述分析结果表明,农民工的个体和家庭特征均与其务工地选择具有密切关系,但哪些因素更重要、更值得关注呢?接下来,我们将根据多种模型结果,从中选出预测精度最高的模型作为实证分析的基础,遴选出影响农民工流向的重要因素,并予以分析。
(一)变量选择
根据第三部分对不同地区农民工就业状况和特征的分析,本文将务工地区类型作为因变量,选择反映农民工个体特征、行业和职业预期以及家庭特征的变量作为自变量构建模型。
为考察当地非农就业环境和经济发展水平对农民工流向的影响,我们还加入了农民工家庭所在村举家外出户占全村总户数的比重和所在县人均GDP变量。
表4.1 变量名称、含义及描述性统计
其中,我们设置了“是否户主”和“是否子女”2个虚拟变量反映家庭角色;农民工行业预期和职业预期均以其当年主要务工行业和职业来代替。
另外,因农民工就业行业主要分布在建筑业、制造业、批发零售业、住宿餐饮业、交通运输业和居民服务业,为简化模型,将农民工的行业预期重新调整为七类。
除了上述6种行业外,剩余行业均归为“其他行业”。
(二)模型简介
由于因变量多为分类变量,自变量中也包含较多分类变量,因此较为适宜的统计模型有:传统的多元logit模型和以k最近邻、Adaboost(自适应助推法)、Bagging(自助整合法)、RandomForest(随机森林)和SVM(支持向量机)为主的现代算法模型。
多元logit模型所估计的方程为具有特征
X的决策者进行多项选择的一组概
i
率,其主要特点是允许自变量包含较多分类变量。
K 最近邻方法是在训练集中动态地确定和一个新的观测点相近的k个观测点。
AdaBoost算法的基本原理是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器),该算法可以排除一些不必要的训练数据特征,并将重点放在关键训练数据上。
Bagging算法利用自助法(bootstrap)放回抽样对训练集做k次放回抽样,生成k个不同的样本,进而产生k个决策树,每
个决策树又都对新的观测值产生一个预测。
RandomForest和Bagging类似,利用bootstrap抽样方法从原始样本中抽取多个样本,并对每个bootstrap样本进行决策树建模,然后组合多棵决策树的预测,通过投票得出最终预测结果,其最大优点是,它不惧怕很大的维数,即使有上千个变量,它也不必删除变量(吴喜之,2012)。
SVM的特点是能够同时最小化经验误差与最大化几何边缘区,该算法在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。
(三)模型初选
从上述可使用模型中,选择最优模型的标准是模型性能。
评价模型性能的标准有多种,如模型的可解释性、计算效率和预测性能。
其中,最流行的是模型的预测性能,这也是本文遴选模型的依据。
模型的预测性能统计量是根据目标变量的预测值与实际值计算出的某特定平均误差,具体包括平均绝对误差(MAE)、均方误差(MSE)和标准化后的平均绝对误差(NMSE)。
MAE的缺陷在于难以判断模型的得分是好还是坏,MSE 的不足在于误差值和目标变量的单位不统一,NMSE通过计算模型和基准模型二者之间预测性能的比率而较好的解决上述问题,成为评价模型预测性能的普遍选择,其中基准模型预测性能统计量为目标变量平均值。
k折交叉验证是估计NMSE统计量的常用方法之一。
利用R软件中相关添加包运行上述六种模型,得出的五折交叉验证预测误差如图4.1。