SPSS教程-聚类分析-附实例操作
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
各地区各行业工资水平的分析(2009年数据)
小组成员:张艺伟、赵月、陈媛、邹莉、朱海龙、曾磊、胡瑛、候银萍
1.研究背景及意义
1.1 研究背景
工资水平是指一定区域和一定时间内劳动者平均收入的高低程度。生产决定分配,只有经济发展才能提供更多的可分配的社会产品,因此一个地区的工资水平在一定程度上反映了其经济发展的水平。
1.2 研究意义
1. 通过多元统计分析方法,探究一个地区的工资水平与其经济发展水平之间的内在联系。
2. 将平均工资水平划分为3类,分析哪些地区、哪些行业的工资水平较高,可以为大学生就业提供宏观上的方向指引。
2.数据来源与描述
2.1 数据来源——《中国劳动统计年鉴─2010》
(URL:/Navi/YearBook.aspx?id=N2011010069&floor=1###)
主编单位:国家统计局人口和就业统计司,人力资源和社会保障部规划财务司
出版社:中国统计出版社
简介:《中国劳动统计年鉴─2010》是一部全面反映中华人民共和国劳动经济情况的资料性年刊。本刊收集了2009年全国和各省、自治区、直辖市、香港特别行政区、澳门特别行政区的有关劳动统计数据。本书资料的取得形式主要有国家和部门的报表统计、行政记录和抽样调查。
2.2 数据描述
本数据集记录了全国31个省市(港、澳、台除外)的工资状况,各省市分别记录了其23个主要行业的平均工资水平,这23个主要行业包括:企业、事业、机关、金融业、制造业、建筑业、房地产业、农林牧渔业等等,具体数据格式参见图-0。
图-0
3.分析方法及原理
3.1 通过描述统计分析方法,判断哪些行业平均工资水平较高
描述统计分析方法主要是从基本统计量(诸如均值、方差、标准差、极大/小值、偏度、峰度等)的计算和描述开始的,并辅助于SPSS提供的图形功能,能够把握数据的基本特征和整体的分布特征。
在本案例中,通过比较不同行业(诸如企业、事业、机关、建筑业、制造业……)工资的均值、极大/小值,可以从总体上判断哪些行业的平均工资水平较高,哪些行业的较低。
3.2 通过聚类分析方法,判断哪些地区平均工资水平较高
聚类分析是依据研究对象的个体特征,对其进行分类的方法,分类在经济、管理、社会学、医学等领域,都有广泛的应用。聚类分析能够将一批样本(或变量)数据根据其诸多特征,按照在性质上的亲疏程度在没有先验知识的情况下进行自动分类,产生多个分类结果。类内部个体特征之间具有相似性,不同类间个体特征的差异性较大。
在本案例中,我们将采用两种方法进行聚类分析:一种是系统聚类法,另一种是K-均值法(快速聚类法)。
3.2.1系统聚类法
系统聚类法的基本原理:首先将一定数量的样本或指标各自看成一类,然后根据样本(或指标)的亲疏程度,将亲疏程度最高的两类进行合并,然后考虑合并后的类与其他类之间的亲疏程度,再进行合并。重复这一过程,直到将所有的样本(或指标)合并为一类。
系统聚类分为Q型聚类和R型聚类两种:Q型聚类是对样本进行聚类,它使具有相似特征的样本聚集在一起,使差异性大的样本分离开来;R型聚类是对变量进行聚类,它使差异性大的变量分离开来,相似的变量聚集在一起,这样就可以在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数、降低变量维度的目的。
在本例中进行的是Q型聚类。
类与类之间距离的计算方法主要有以下几种:
(1)最短距离法(Nearest Neighbor),是指两类之间每个个体距离的最小值;
(2)最长距离法(Farthest Neighbor),是指两类之间每个个体距离的最大值;
(3)组间联接法(Between-groups Linkage),是指两类之间个体之间距离的平均值;
(4)组内联接(Within-groups Linkage),是指把两类所有个体之间的距离都考虑在内;
(5)重心距离法(Centroid clustering),是指两个类中心点之间的距离;
(6)离差平方和法(Ward法),同类样品的离差平方和应当较小,类与类之间的离差平方和应当较大。
3.2.2 K-均值法(快速聚类法)
K-均值法(又称快速聚类法),是由MacQueen于1967年提出的,它将数据看成K维空间上的点,以距离作为测度个体“亲疏程度”的指标,并通过牺牲多个解为代价换得高的执行效率。但是,K-均值法只能产生指定类数的聚类结果,而类数的确定离不开实践经验的积累。
快速聚类分析的基本思想是:首先按照一定方法选取一批凝聚点(聚心),再让样本向最近的凝聚点凝聚,形成初始分类,然后再按最近距离原则修改不合理的分类,直到合理为止。因此,在快速聚类中,应首先要求用户自行给出需要聚成多少类,最终也只能输出关于它的唯一解。快速聚类是一个反复迭代的分类过程,在聚类过程中,样本所属的类会不断调整,直到最终达到稳定为止。
4.实验操作与结果分析
4.1 描述统计分析方法
在数据编辑窗口的主菜单中选择“分析(A)”→“描述统计”→“描述性分析(D)”(如图-1),
图-1
打开如下对话框,将左侧框中的所有变量选入右侧框中,如图-2所示,单击“选项(O)”按钮,
图-2
在“选项”对话框中选择所需要分析的统计量,包括均值、标准差、极大值、极小值,如图-3所示。
图-3
点击“确定”按钮之后,分析结果如下表-1所示:
表-1描述统计量
N 极小值极大值均值标准差企业31 22000 62046 30869.10 8680.069
非农企业31 24788 62098 31787.84 8385.740
事业31 25021 68371 35282.77 11732.956
机关31 26668 74734 39085.10 13350.591
农_林_牧_渔业31 8841 45925 19413.84 7964.071
采矿业31 22846 66138 38030.74 11461.961
制造业31 21242 48207 26453.74 5509.114
电力_燃气及水的生产和供应业31 29605 86262 44113.10 14812.450
建筑业31 16583 69131 25769.23 10063.993
交通运输_仓储和邮政业31 25797 56955 35202.77 7353.178
信息传输_计算机服务和软件业31 22347 105413 47303.87 18924.379
批发和零售业31 16263 60260 26534.19 9705.925
住宿和餐饮业31 13577 38040 19263.71 5071.244
金融业31 31466 180816 62972.65 32341.917
房地产业31 15993 57052 28447.45 8900.469