运用聚类分析法进行管理对象分类
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2010年第27期(总第162期)
NO.27.2010
(CumulativetyNO.162)
摘要:在某公司PMS系统上收集了某部门的八个项目的各项管理活动数据。
文章利用聚类分析进行归纳和评价,最终得到项目的分类情况,对实现工作中的量化管理和科学决策有很好的帮助。
关键词:聚类分析;量化管理;多维变量;PMS系统
中图分类号:F323 文献标识码:A
文章编号:1009-2374 (2010)27-0128-02
俗话说:物以类聚,分类是人们认识世界的基础。
在日常工作、生活以及社会经济等各种现象中,存在着大量分类研究的问题。
假如您属于市场体系,需要研究上海市手机通讯市场的分布规律,这就要针对上海各个区域市场总量状况、不同手机款式、不同销售量、不同消费人群等大量数据进行整理后,最终得到关于手机市场的分类。
另外在生活中也不乏需要进行变量聚类的实例,比如高校可以运用系统聚类法中的最短距离法,按学生的思想品德、学习成绩、身心健康三项指标将学生分成四类,即优、良、中、一般,从而为学生管理工作者根据分类结果对不同类型的学生实施有针对性的管理提供科学依据。
1 方法简介
传统的分类方法起源很早,但利用统计数学和计算机对复杂对象进行定量分类的方法仅有约三十年的历史。
过去人们主要靠经验和专业知识进行定性分类处理,致使许多分类带有主观性和任意性,不能很好地提示客观事物内在的本质差别与联系,特别是对于多因素、多指标的分类问题。
为了克服定性分类的不足,引入统计数学后形成了数值分类法。
数值分类一般有两种情况:一是已知研究对象的分类情况,需将某些未知个体正确地归属于其中某一类,这称为有师分类或判别分析(Discriminant Analysis);二是研究对象不存在事前分类的情况,而将数据进行结构性分类,是一种无师分类或称聚类分析。
聚类分析是研究“物以类聚”的一种多元统计分析方法。
其基本思想是根据对象间的相关程度进行类别的聚合,在进行聚类分析前,这些类别是隐蔽的,能分为多少种类别事先也是不知道的。
聚类分析的结果是使得同一类中的个体有较大的相似性,而不同类中的个体差异很大。
文中介绍聚类分析中最重要的系统聚类法,其过程是:聚类开始时,样本中的各个样品(或变量)自成一类;通过计算样品间的相似性,把其中最相似的两个样品进行合并,合并后,类的数目就减少一个;重新计算类与类之间的相似性,再选择其中最相似的两类进行合并,……,这种计算、合并的过程重复进行,直至所有的样品归为一类。
根据分类对象的不同可把聚类分析分为样品聚类(Q型聚类)和变量聚类(R型聚类)。
本文属于样品聚类,就是对样本单位的观测量或特征进行聚类。
不同的分析目的,需要选用不同的指标(变量)作为分类的依据。
2 聚类分析的三个步骤
2.1 数据变换处理
分析过程中,需要对各个原始数据进行一些相互比较运算,但由于计量单位的不同会对数据值造成影响,因此首先进行原始数据的变换处理。
2.2 计算聚类统计量
聚类统计量是根据变换以后的数据计算得到的一个新数据。
它用于表明各样品或变量间的关系密切程度,最常用的统计量有距离和相似系数两种。
2.3 选择聚类方法
根据聚类统计量,运用一定的聚类方法,将关系密切的样品或变量聚为一类,将关系不密切的样品或变量加以区分。
选择聚类方法是聚类分析最终、也是最重要的一步。
3 分析步骤和推导过程
3.1 原始数据收集
全部来自PMS系统,收集了某部门的八个项目在2010-1-1~2010-4-20期间数据:
项目名称
项目人数
(人)
实际工作量
(小时)
剩余工作
量
总任务数
(个)
已经完成
任务数
按时完成
任务数
延期完成
任务数
提前完成
任务数x1x2x3x4x5x6x7x8
项目A880.00 2893.38 90000
项目B16657.00 3958.08 121010
项目C2310890.00 -246.16 84503857
项目D255605.50 3141.82 935430717
项目E236951.50 -1481.23 46161033
项目F211652.00 -45.46 1812561
项目G101426.40 879.20 248143
项目H19928.00 103.75 90000 3.2 数据变换
采用最常用的标准化变换方法,即将原始数据转换为标准Z分数(Z score)。
运用聚类分析法进行管理对象分类
李瑞妹
(陕西理工学院,陕西 汉中 723001)
--
128
- -
129计算公式为:X ij '=X ij -X
S j
,其中X 表示样本均值,
S j 表示样本标准差。
为简化起见,不再详述过程数据。
当使用Minitab 软件计算时,只要输入原始数据,通过软件设置,也能自动产生最终结果。
但实际操作中希望能关注每一步中间数据,这样最终会对分析和解决问题起到重要作用。
3.3 计算聚类统计量
采用最常用的欧氏距离(Euclidean distance)来研究样品或变量疏密程度。
其中距离含义是:把每个单位看成是p 维(本文是8维)空间的一个点,在p 维坐标系中计算的点与点之间的某种距离。
第
i 个样品与第k 个样品之间的欧氏距离为:
ik d =
3.4 选择聚类方法
采用目前应用最广泛的系统聚类法。
首先将每个样品各自看成一类,选择距离最小的两类合并成一新类,然后计算该新类与其他类之间的距离,再将距离最小的两类进行合并,如此继续,直到所有的样品都聚为一类为止。
在计算类与类之间的距离时,采用最短距离法(nearest neighbor)首先合并最近的或最相似的两类,用两类间最近点间的距离代表两类间的距离。
最终计算得到数据结果如下:
Number of
observations
Within cluster sum of squares Average distance
from centroid
Maximum
distance
from centroid
Cluster1618.1635 1.69126 2.39638Cluster210.00000.000000.00000Cluster310.00000.000000.00000
Cluster Centroids
Variable Cluster1 Cluster2 Cluster3 Grand centroid x1 -0.311382 0.77514 1.09315 -0.0000000x2 -0.406452 1.90138 0.53733 -0.0000000x3 -0.051085 -0.71966 1.02617 -0.0000000x4 -0.504358 1.38118 1.64496 0.0000000x5 -0.520229 1.46988 1.65149 0.0000000x6 -0.520080 1.82581 1.29467 0.0000000x7 -0.337953 0.64518 1.38254 -0.0000000x8 -0.465577 0.53720 2.25626 -0.0000000Distances Between Cluster Centroids Cluster1
Cluster2
Cluster3
Cluster1 0.00000 4.68452 5.19824
Cluster2 4.68452 0.00000 2.98215Cluster3 5.19824 2.98215
0.00000
3.5 绘制分类树形图
从图中可以最终得到,根据PMS 中项目数据,将8个项目分成了三类情况。
第二类只有项目组C,它和别的项目区别很大。
结合原始数据,在3.6月内项目C 共通过PMS 下达了10890小时工作量,人均每月132小时工作量,基本符合22×8=176小时的标准月工作时要求;同时从任务数、计划完成率、提前完成率等也能反应出,按照公司规范和量化管理的要求,项目C 的计划管理水平和效果显著高于其它项目。
建议是继续保持。
第三类只有项目D,整体做的较好,建议是改进完善。
第一类是剩下的6个项目,其中项目A、B、I 每月人均下达了不足15小时工作量。
这6个项目整体从PMS 上看,近期未有效采用PMS 进行工作计划和员工任务的下达和管理。
通过访谈也发现,整个项目计划管理活动在开始制定时还比较规范,但后期由于进度等原因,项目大多使用邮件和口头方式进行正式的任务和计划管理。
建议是立即整改。
4 总结
通过使用聚类分析法,对管理工作中的多维变量问题进行了科学的计算和分析。
最终得到分类情况,对实现工作中的量化管理和科学决策有着非常好的帮助作用。
参考文献
[1] 刘映池,张毅.运用系统聚类法对高校学生进行分类[J].
教育与教学研究,2009,23(9).
[2]
李伟,王黎勇,等.运用系统聚类法综合评价农村社区卫生服务中心功能[J].中国医院统计,2006,13(3).[3]
宁正元,王李进.统计与决策常用算法及其实现[M].清华大学出版社,2009.
作者简介:李瑞妹(1978-),女,陕西渭南人,陕西理工学院讲师,硕士,研究方向:管理学。