多元统计分析-期末论文-不同地区不同行业薪资差异分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

我国地区行业薪资水平差异分析

学院:统计学院班级:14级金融计量国际班姓名:吴亚南学号:32014120093

摘要:本论文主要应用聚类分析,主成分分析,因子分析和对应分析四种多元统计方法对2015年我国31个省,市,自治区的地区薪资情况及不同的的行业对工资的影响相结合进行研究分析。为全面的研究问题,数据选取了教育业,金融业,管理业等19个行业进行分析。本文将首先采用聚类分析的方法将各个省市按照工资总数分类,由分类结果初步观察不同地区是否存在明显的差异;之后运用主成分分析的方法由繁至简找到两个变量代替所有变量并进行因子分析;最后根据因子分析的基础上做相应分析,观察两个因子之间的关系。从而从不同角度分析我国各地区薪资水平存在的主要差异以及导致这些差异出现的原因,并对我国目前地区行业发展进行综合概述。

关键词:聚类分析主成分分析因子分析对应分析薪资水平

一、引言

在信息发达的大数据时代,我们常会遇到数量大,难分析的数据和实际问题,这时统计分析方法显得尤为重要,同时,不同地区不同行业的薪资情况差异是人们一直关心的问题,也是最根本最切合实际的问题。因此,本文将二者联系到一起对2015年我国不同省市不同行业的薪资水平进行了分析。本文数据来自中国统计年鉴。

二、聚类分析

聚类分析概念聚类分析是研究“物以类聚”的一种方法。聚类分析是应用最广泛的一种分类技术,它把性质相近的个体归为一类,使得同一类中的个体具有高度的同质性,不同类之间的个体具有高度的异质性。聚类分析的职能是建立一种分类方法,它是将一批样品或变量,按照它们在性质上的相似程度进行分类。通常我们用距离来度量样品之间的相似程度,用相似系数来度量变量之间的相似程度。

图1.1

通过观察上表,我们可以看出,在整个聚类过程中,描述我国所有省、市、自治区薪资水平的31个样品都参与了聚类分析过程,没有遗漏的未参与分类的样品。这充分说明此次聚类分析已经对全部31个样品的各个变量进行了聚类,不需要再利用判别分析再进行二度聚类。

图1.2

(1)结合以上归类表,给出了2015年我国31个省、市、自治区薪资总数为样品聚类分类为三类时的各样品所属类别。经过聚类分析,我们可以清楚的观察到三个类别下的具体情况。第一类包括两个样品,分别为:北京和上海。北京是中国的首都,是政治文化中心;上海是中国的经济中心,二者均是国际化大都市,其发展力无疑是巨大的,人才济济,资源丰富,职业种类丰富,就业机会多,不仅基础经济建设良好,以房地产和金融业为代表的就业方向前景也十分良好,故薪资水平应排在第一类。

(2)第二类包括四个样品,分别为:天津、江苏、浙江和广州。从地区分布来看,第二类所包含的省市主要分布在我国东南沿海和临海的华中地区。这些地区人才人口集中;工业高度发达,以广州为例,其轻工业的发展在国内首屈一指,提供了大量的就业机会。得天独厚的地理位置和环境优势;劳动力丰富;经济高速发展。飞速的经济发展让人们意识到了这些地区丰富的就业机遇和个人发展前景。综合的原因,导致这些样品为第二类。

(3)第三类包括25个样品,分别为:河北、内蒙古、辽宁、福建、河南、湖北、湖南、四川、山西、吉林、黑龙江、安徽、江西、山东、广西、海南、贵州、云南、西藏、重庆、陕西、甘肃、青海、宁夏、新疆。这些省市初步观察,薪资总数基本处于一个水平,样本在中

国基本处于慢速发展状态,这些省、市、自治区的就业种类相对较为固定,且人才流动性较低,人口相对较少,有些处于较为偏远的地区,行业的侧重点发展和不同行业所占薪资比重等原因可能都是这一类薪资水平较低的原因。

三、主成分分析

主成分分析也称主分量分析,是一种将多个指标化为少数几个综合指标的统计分析方法。在实际问题中,研究多指标问题是经常遇到的,我们必须考虑众多对某经济过程有影响的因素,这些因素在统计学中被称为指标,也成为变量,每个指标都在不同程度上反映了所研究问题的某些信息,然而在多数情况下,指标之间彼此有一定的相关性,因而所得的统计数据在一定程度上反映的信息有重叠。主成分分析可将相关的指标化成不相关的指标,避免了信息重复带来的虚假性。此外,主成分分析能用较少的变量反应更多的问题,减少计算量的同时简化了问题。

图2.1

由上表可得,2015年各省市自治区的平均薪资水平为55217.6452元,农林牧渔业的平均薪资水平为32724.2258元,采矿业为63315.7097元······这些数据基本反映了薪资水平的总体情况和不同行业的分配比重。同时,由标准差一列可以看出,总体薪资水平的标准差高达13864.21274,由此可见不同行业的薪资水平差异仍然较大。

图2.2

上表表示的是我国不同省市不同行业薪资水平之间的相关性。由表可知,首先,各个变量与自身是完全相关的,其自相关系数为1.000。其次,各个行业之间的薪资水平也存在一定的相关性,例如,薪资总数和制造业工资的相关系数高达0.940,和建筑业工资的相关系数高达0.946,和批发零售业工资的相关系数高达0.948,和商业服务业工资的相关系数高达0.942,和教育业工资的相关系数高达0.925,和文体娱乐业工资的相关系数高达0.943,和卫生社会工作行业工资的相关系数高达0.910。由此,我们可以初步推断,平均工资水平与制造业,建筑业,批发零售业,商业服务业,教育业,文体娱乐业和卫生社会工作之间的发展关系密切,其中,和批发零售业的关系最为密切。

3.基于以上分析,我们做主成分分析提取主成分因子

a.总方差分解图

图2.3

由上表可见,通过主成分分析,我们从19个变量中提取了两个主成分因子,这两个主成分因子的特征值分别为14.972和1.144;各因子方差贡献率分别达到了78.802%和6.023%,这两个主成分因子的累计方差贡献率达到84.826%。

b.因子载荷矩阵图

因前两个特征值的累计贡献率已达到了84.826%,故取前两个特征值建立因子载荷阵如下:

相关文档
最新文档