系统工程 第三部分(二) 聚类分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3
聚类分析的统计思想
样本(或变量)间存在着相似性,根据多个观测指 标,找出能度量样本之间相似程度的统计量,以其 为依据,把相似程度较大的样本聚合为一类,关系 密切的聚合到一个小的分类单位,关系疏远的聚合 到一个大的分类单位,直到把所有的样本都聚合完 毕,把不同的类型一一划分出来,形成一个由小到 大的分类系统。
iGM , jGJ
min
iGK , jGJ
dij , min dij
iGL , jGJ

min DKJ , DLJ
在D(0)中,GK和GL所在的行和列合并成一个新行新 列,对应GM ,该行列上的新距离值由上式求得, 其余行列上的距离值不变,这样就得到新的距离矩 阵,记作D(1) 。 (4)对D(1)重复上述对D(0)的两步得D(2) ,如此下去直 至所有元素合并成一类为止。
14
15
16
最短距离法的聚类步骤
(1)规定样品之间的距离,计算n个样品的距离矩阵 D(0),它是一个对称矩阵。 (2)选择D(0)中的最小元素,设为DKL,则将GK和GL 合并成一个新类,记为GM,即GM= GK∪GL。 (3)计算新类GM与任一类GJ之间距离的递推公式为
17
DMJ min dij min
5
非层次聚类 其共同特点是:先给定一个粗糙的初始分类,然后 按照某种原则反复进行修正,直到分类较为合理为 止。
6
聚类分析的准备工作 聚类分析是以完备的数据文件为基础的,这一数据 文件除观测变量比较完备之外,一般还要求各个观 测变量的量纲一致,即各变量取值的数量级一致, 否则各变量在描述客观事物某方面特征差异性的作 用有被夸大或缩小的可能。 所以,聚类分析前要检查各变量的量纲是否一致, 不一致则需进行转换,如将各变量均作标准化转换 就可保证量纲一致。
聚类分析
统计分组或分类可以深化人们的认识。实际应用中 有的分组比较容易,分组标志确定了,分组也就得 到了。但有些分组不那么容易。
聚类分析为我们提供了一种对于复杂问题如何分组 的统计方法。
2
聚类分析(cluster analysis )是统计学中研究“物 以类聚”问题的有效方法。它建立一种分类方法, 能够将一批数据按照他们在性质上的亲密程度在没 有先验知识的情况下自动进行分类。“类”是一个 具有相似性的个体的集合,不同类之间具有明显区 别。 聚类分析就是按照对象之间的“相似”程度把对象 进行分类。
p
i
yi
q
在对变量进行分类时,度量变量之间的相似性常
用相似系数
夹角余弦
cos xy
x y
i i i i
i
2 2 x y i i
Pearson相关系数
rxy
(x
i i
i
x )( yi y )
i
2 2 ( x x ) ( y y ) i i12 Nhomakorabea13
10
样本点间距离的计算方法
Euclidean距离 Squared Euclidean距离 Block距离 Chebychev距离 Minkovski距离
11
2 ( x y ) i i i 1
p
(x
i 1
p
p
i
yi )
2
x
i 1
i
yi
max xi yi
q
x
i 1
18
19
20
21
22
23
24
从变量的含意上来看,森林面积和林木蓄积量样本 的相似性最大,也就是说,相关性最强。 重视森林保护的国家,也常常重视草原建设,其相 关性次之。 森林覆盖率与草原面积是互为矛盾的,因此相关相 似系数出现负值,在聚类谱系图上也是属于最后归 类的变量。
25
4
聚类分析的主要方法 层次聚类法 基本特征是:先将m个研究对象各自看成一类,是 初始分类,记为C0。然后根据类与类之间的距离来 合并,将C0中距离最近的类合并成一类,得到一组 新的类,记为C1。在C1这层分类的基础上,再重复 以上C0—>C1的过程,得到一组新的类,记为C2, 以上聚类过程可以不断重复进行,得到一个聚类层 的序列C0,C1,C2,Ck。其中Ck中只有一类,即 包含所有m个研究对象的类。
7
8
在对样本进行分类时,度量样本之间的相似性常使 用点间距离
9
点间距离的计算方法主要有 • 欧氏距离(Euclidean distance) • 平方欧氏距离(Squared Euclidean distance) • Block距离(Block distance) • Chebychev距离(Chebychev distance) • 明科夫斯基距离(Minkovski distance) • 最常用的是平方欧氏距离
相关文档
最新文档