聚类分析方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
聚类分析方法
方法介绍
聚类分析 (Clauster Analysis)
数值分类法的一种,在社会应用中称类型学。
Robert Tryon于1939年提出的一种心理学研究方法。
目的:用数量关系对事物进行分类。
对于可以用某些数量描述的事物,采用样本间的距离来将性质接近的事物归为一类,从而达到对事物的分析和评价。
聚类分析作分类时各类群乃至类群数事先未知,而是根据数据的特征确定的,又称为无师可循的分类。
一般分为逐步聚类、系统聚类和其它方法。
16种饮料的热量、咖啡因、钠及价格四种变量
数据示例
聚类分析(cluster analysis)
对于一个数据,人们既可以对变量(指标)进行分类(相当于对数据中的列分类),也可以对观测值(事件、样品)来分类(相当于对数据中的行分类)。
比如学生成绩数据就可以对学生按照理科或文科成绩(或者综合考虑各科成绩)分类。
当然,并不一定事先假定有多少类,完全可以按照数据本身的规律来分类。
如何度量远近,
如果想要对100个学生进行分类,如果仅仅知道他们的数学成绩,则只好按照数学成绩来分类;这些成绩在直线上形成100个点。这样就可以把接近的点放到一类。
如果还知道他们的物理成绩,这样数学和物理成绩就形成二维平面上的100 个点,也可以按照距离远近来分类。
三维或者更高维的情况也是类似;只不过三维以上的图形无法直观地画出来而已。在饮料数据中,每种饮料都有四个变量值。这就是四维空间点的问题了。
如果以n个数值型变量(n维空间)来描述某一类事物,则一个事物就是n维空间中是一个点。
Y
X
Z
1>.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
A
B
C
.
在A、B、C三组数据点群中,每组内部的数据点的坐标数值都比较接近。用几何距离表示就是:
由于在同一类中数据点的坐标值比较接近或几何距离比较接近,这类点的总体性质就比较接近。
聚类分析就是通过对变量的测量,将比较接近的个案找出来归为一类,进一步再将比较接近的类合并成为新的类,逐层合并直到最后合并成为一类。聚类的类型
聚类有两种类型:
“Q聚类”,也可解释为样本聚类。
这种聚类将在聚类过程中发现具有共同属性的样本。
“R聚类”,也可解释为变量聚类。而“R聚类”则可以在某些变量中选择出具有代表性的变量。
(一)基本概念
样品:样品是分类对象的单一个体。在零件分类中,每一个零件即为一个样品。
分类全域:分类全域是欲分类样品的集合。在车间生产流程分析中,进入车间加工的全部零件为其分类全域。
类:类是分类全域的一个子集。自己可以包括一个或多个样品,单一样品亦可以是一个独立的分类。因此,一个零件,既可看成是一个样品,也可看成是只有一个样品的特殊的类。
(一)基本概念
相似系数:是描述两个样品之间相似程度的统计量。在处理不同的具体问题时,可以构造不同的相似系数统计量。在车间生产流程分析中对零件分类,依据是零件工艺过程,即按工艺过程相似性分类。
就一对零件而言,他们的工艺过程中共用的机床数目越多,则这一对零件相似程度就愈高;反之,若共用的机床数目越少,其相似程度就越低。
据此,可定义相似系数的统计量:
1) 式(
相似系数
令加工零件Xi与Xj使用的机床总数目分别为CI与CJ,则有:
相似系数Sij可以用来判定一对零件的相似程度。若一对零件加工机床的类型与数目完全相同,则Sij=1,若没有相同的机床,则Sij=0 。
所以,根据一对零件亲疏的程度,Sij值在0到1之间变化。
—
(二)聚类方法和类相似系数
单一样品对之间可以根据原始数据构造一定的相似系数统计量来描述它们之间的相似性。同样,当样品合并成类时,也可以按一定的法则构造相似系数统计量,以描述样品与类之间或类与类之间的相似程度。
这种构造样品与类与类之间的相似系数统计量的法则称为聚类方法,该统计量称为类相似系数。
常用的聚类方法有最近距离法、最远距离法、类平均法、中值法、可变类平均法等。
零件分类实践表明,类平均法有较好的分类效果,能较好地反映零件之间客观存在的相似性。
类平均法(Average Linkage Method)
在类平均法中,类相似系数的定义为:两个类分别有np及nq个样品,这两个类之间的类相似系数定义为所有np×nq个样品之间相似系数的算术平均值。
为提高零件分类的计算速度,可以用递推算法计算出每聚合一个新类之后该类与其他类之间的类相似系数。
设类Xp及Xq聚合成新类Xr,它们分别具有np 、 nq及nr个样品,用类平均法,按以下的递推公式可算出任意一个类Xk与新类Xr之间的相似系数Skr ×
式中,Skp ,Skq分别为任意类Xk与新类Xr之间的类相似系数。
(三)聚类分析法的零件分类
聚类分析法是根据规定的统计量为判据将多种零件逐次聚合成类。
为此,首先需要计算出零件之间的类相似系数,据此列出原始相似系数矩阵表。
(三)聚类分析法的零件分类
将矩阵中相似系数数值最高的一对零件聚合成新类,然后,再按规定的聚类方法计算出新类与其余的零件类(单一零件亦可认为是一类)之间的相似系数,据此建立相似系数矩阵。
(四)计算机辅助聚类分析法零件分类
采用聚类分析法对众多零件进行分类时,包括有大量的计算和信息处理工作,用手工方式很难胜任,故宜借助于计算机。根据上述聚类分析法零件分类过程,可归纳聚类分析法的算法如下:
(1)计算每一对零件之间的相似系数,据此建立一个相似系数矩阵;
2)在相似系数矩阵中搜索最大相似系数值; (
(3)检查终止条件是否满足,如果满足,转(6),否则转(4);
(4)将相似系数最大的那两个零件类合并为新类;
(5)计算新零件类与其余零件类之间的类相似系数,修改相似系数矩阵,转(2);
(6)将聚合的各零件类整理成组;
(7)分类结束。