应用统计案例库封面
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
应用统计案例库封面
一、案例背景与数据介绍1
案例背景:职工平均工资水平不仅衡量一国家或地区人们生活水平的高低,而且一定程度上也体现了该地区或国家经济发展水平的高低。它是关系到人们生活水平的最基本的经济指标,也为评价衡量居民的生活水平,当地经济发展程度提供了重要尺度。对实际工资的研究,在理论和实践上都具有重要意义。我们通过对长春市工资水平的综合分析,了解长春市工资水平受哪些经济因素的影响,以期为进一步发展长春市经济,提高居民收入提供一些理论依据。
样本数据的选取:一般地,影响工资水平决定的因素是多方面的,其中主要包括经济的发展状况,政府投资,外资投资,职工数量,职工素质如教育程度,地区的经济发展水平,科技水平,劳动生产率水平,劳动力的供求状况等。这些因素,与经济因素交织在一起共同影响工资水平。根据这些影响因素,列出下面影响职工平均工资水平的变量:
Y 职工平均工资(元);
x1 人均生产总值(元)(人均GDP);
x2 每一工业职工创造产值(万元);
x3 每一工业职工实现利税(元);
x4 固定资产投资总额(万元);
x5 职工人数(万人);
x6 高等学校在校学生数/总人口(%);
x7 全市科技成果(项);
x8 居民消费价格指数 (% )。
其中,x1 为地区的经济发展水平的影响;x2,x3反映职工创造产值方面的影响;x4反映政府投资方面的影响;x6为教育方面的影响;x7为科技方面的影响;x8为物价的影响。具体数据来自长春市统计年鉴和吉林省统计年鉴。
1本例选自长春工业大学2005级本科生宋芹的优秀本科毕业论文部分节选,指导教师王纯杰做了适当修改。
二、分析过程
1. 本文在最小二乘估计(Ordinary Least Square Estimation,OLSE)[1]的基础上研究工资水平受哪些经济因素的影响,如何受这些经济因素的影响。
首先,做相关分析,在SAS环境中,求得相关系数,一方面可以得出职工平均工资(y)与当地经济发展水平(x1),工业职工创造产值(万元)(x2),每一工业职工实现利税(元)(x3),投资(万元)(x4),教育程度(x6),科技水平(x7 )有较大的正相关关系;与职工数量(x5)和物价水平存在负相关关系。这是符合经济意义的,当教育程度,科技水平,当地经济发展水平越高时,职工平均工资越高;而当职工数量越多,居民消费价格指数越高时,职工平均工资越低。另一方面除居民消费价格指数与工资的相关性不大,其余变量与工资的相关性都较大。至于变量之间的相关性,除x8与其他的变量的相关系数的绝对值在0.5左右,其余变量间的相关性都较大。
1.1普通最小二乘回归下的工资水平分析
在SAS环境[2]中,依据最小二乘理论,进行回归分析,考察工资如何受当地经济发展水平,投资,教育,科技发展水平的影响。
由方差分析表可知,F统计量的值为485.02,F检验的P值〈0001,说明模型总体拟和效果很好。复决定系数R-Square 为0.9982,调整的复决定系数Adj R-Sq 为0.9961,说明该模型对原始数据的模拟效果很好。通过方差分析表,证明长春市职工工资水平受地区生产总值,固定投资,教育等经济因素的影响。
由回归系数的参数估计及其回归系数的t检验表可知,自变量x2,x3,x7,x8的t检验的p值均>0.05,这些变量不显著。x2每一工业职工创造产值,x8职工数量与职工平均工资在经济意义上是有影响的,一般而言,职工数量越多,劳动力数量供大于求时,根据价值规律,职工工资会下降。而现在回归结果不符合经济意义,出现这种情况,有可能是存在多重共线性的缘故。
根据回归诊断表知DW检验, DW=2.186,因此不存在序列相关。根据学生化残差和库克距
离公式,所有残差的绝对值均小于3,因此不存在异常值问题。
通过SAS软件得到共线性诊断结果,其中最大的特征值是7.94979,最小的特征值是0.00083761。计算出的条件数最大的是97.42177,当条件数>10时就存在较强的多重共线性,说明本文数据存在较强的多重共线性,从本文开头相关系数中也可以看出。
文中由于影响工资水平的各个经济变量也相互影响,因此存在多重共线性也是合理的.比如, 经济繁荣时期,地区生产总值和每一职工创造产值都趋于增长;而经济衰退时期,它们又同时趋于下降.
1.2工资水平的岭回归分析
处理多重共线性的方法有逐步回归,主成分回归,岭回归,偏最小二乘回归等方法.目前,岭回归是最有影响的一种新的估计方法.因此本文采用岭回归分析方法.
当出现多重共线性时,普通最小二乘回归将明显变坏, A.E.Hoerl(霍尔)在1962年首先提出一种改进最小二乘估计的方法,叫岭估计(Ridge Estimate),后来Hoerl 和Kennard(肯纳德)于1970年给予了详细讨论. [1]
用岭回归方法解决多重共线性的问题,其实质是一种自变量选元的过程。在SAS中应用岭回归消除多重共线性,进行自变量选元,岭迹图如图1:
图1 岭迹图
岭回归系数表给出了当岭参数k取从0到1之间的不同值时,各个自变量的回归系数。岭迹图1对此更直观的用图形表示出来。从图1可以看出,x8的系数极小,一直很平稳的
在0附近,因此x8很自然应该是被剔除的;剔除x8后按同样的方法重新作岭回归。依次将x3,x5,x2,x7剔除。从整体上看,当k达到0.15—0.25之间时,各个系数已大体上趋于稳定,因此在这一区间上取一个k值作岭回归可能得到较好的效果。最后,当仅剩下x1,x4,x6时,重新作岭回归。用x1,x4,x6重新作岭回归,岭迹图如图2:
图2 岭迹图
根据输出结果和岭迹图2,可以看出至此所有剩余变量的岭迹图都已经很好了。当岭参数k为0.2时,所有变量的系数都已经基本稳定。因此,取岭参数k=0.21,标准化后回归方程为:
y= -1.5965E-16+ 0.36655 x + 0.31704x+0.24929 x
146
可见,地区生产总值与固定资产投资对工资水平有几乎同样重要的作用,回归系数分别为0.36655和0.31704。教育对工资水平也具有显著的正相关关系,其回归系数为0.24929,说明当地经济总量和投资对工资水平的影响较教育对工资的影响程度更大。如果一个地方的经济发展水平高,那么该地的各种经济因素就相对较高,这样受经济因素影响较大的职工的平均工资水平相应会较高。要提高长春市的职工工资水平,首先政府应致力于发展该地的经济,教育,增加投资,扩大吸引外资。其次,还应注意收入分配制度的合理性,避免收入差距过大,实现公正,合理的收入分配制度。调节过高收入,补贴较低收入。
另外,由于影响工资水平的因素是很复杂的,劳动生产率的高低、劳动力市场的供求关系以及影响劳动力市场的制度性因素等都会影响工资水平,本模型并没有包括这些因素,因此本模型仅供参考。通过实际措施来提高工资水平时,除应考虑本模型中所考虑的因素外,