聚类与距离方法

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Company Logo
完全连接法聚类

因而距离阵为:
下一次合并产生聚类(124)。在最后阶段,将组(35)和(124)合并成一个聚类 (12345)
Company Logo

Company LOGO
Company Logo
将每个对象看成是一个类,我们的聚类从合并两个最接近的项目开始,由于
对象5和3合并,形成聚类(35)。为确定下一个聚类水平,我们需要得到聚类(35) 与其余1,2,4之间的距离。最近邻近点距离为:
Company Logo
单连接法聚类

从D中将对应于对象3和5的行和列删除,并将对应于(3 5)的行和列加上,便得 到新的距离阵
ij
其中 和 分别为聚类U和W及聚类V与W的最近邻近点之间的距 离。 单连接聚类的结果可以用树图表示。树的分枝代表聚类。分枝在结点 处汇合,而沿距离轴的各个结点位置指明合并发生时的水平(即距离 或者相似性的大小)
Company Logo
单连接法聚类

考虑五个对象之间的假象距离:
最终的距离阵变为
Company Logo
单连接法聚类

于是将聚类(135)和(24)合并,形成一个包含全部五个对象的聚类(12345),此 时最近邻近点距离为6 图解上述分层聚类过程的树图示如右图,此图清楚说明了分组与分组发生时的 距离水平。
Company Logo
聚类


聚类是对组的数目或者组的结构不用做任何假设的一 种发现项目(或者变量)的自然分组方法。 必须先建立一个定量的尺度,借以量度对象之间的联 系。
分类


分类问题中组的数目是已知的,其操作目标是将一个 新的对象分派给这些组之一。 分类是在相似或者距离的基础上进行的,所需的输入 是一些相似性度量,或者说是一些可从中算出相似性 的数据。

两个变量之间的相似度的量度为:
r
ad bc
1
[( a b )( c d )( a c )( b d )] 2
Company Logo
分层聚类方法

分层聚类方法是通过一系列或者是相继的合并,或者是相继 的分割来进行的。 聚集分层方法中的连接法,主要分为:单连接、完全连接和 平均 1
i
yi )
Company Logo
频数定义相似度系数

Company Logo
变量对的相似度及关联性量度

在某些应用中,必须进行分组的是变量而不是项目。变量之 间的相似性量度常取样本相关系数的形式。 当变量为二值变量的时候,可将数据表示为列联表的形式。 该表具有以下形式:
完全连接法

完全连接聚类方式与单连接聚类方式在许多方面都相同,但是一个重要区别是, 在每个阶段,聚类之间的距离由两个聚类中相距最远的两个元素之间的距离确定 。这样,完全连接就能保证:对一个聚类中的所有项目,彼此间的距离均不超过 某个最大距离(或最小相似性)。 一般的聚集算法从找到 中的最小元素开始,并将U和V这样的相应对象 合并,得到新的聚类(UV),(UV)与任一其他聚类W之间的距离定义为:
2 2
2
(x y ) (x y )
'
1 m
p d (x , y ) xi yi i 1
坎贝拉度量:
p
m
捷卡诺夫斯基度量:
d (x, y )
x
i 1
xi yi
i
2 min( x i , y i ) d (x, y ) 1
i 1 p
ij
其中 和 分别为聚类U和W及聚类V与W的最近邻近点之间的距 离。 单连接聚类的结果可以用树图表示。树的分枝代表聚类。分枝在结点 处汇合,而沿距离轴的各个结点位置指明合并发生时的水平(即距离 或者相似性的大小)
Company Logo
单连接法聚类

考虑五个对象之间的假象距离:
这里
分别为U与W以及V与W的相隔最远的成员之间的距离
例题(用完全连接法聚类) 引入的距离矩阵:
Company Logo
完全连接法聚类

在第一阶段,将对象3和5合并,因为它们最相似。这样就得到聚类(35)。在第 二阶段,我们计算
于是距离阵修正为:
下一次合并发生在两个最相似的组2与4之间,得到新的聚类(24)。在第三阶 段我们有:
聚类与距离方法
主讲人:郑淮文 时间:2012-5-16
Contents

1. Introduction
2. Strategy
3. Challenges Forward 4. Conclusion
Company Logo
聚类与分类


单连接
完全连接
平均连接
Company Logo
单连接法

单连接算法的输入可以是对象对之间的距离或者相似性。各个组由个 体通过合并最近邻近点而形成,此处的最近邻近点可以指最小距离或 者最大相似性。 一开始我们必须找到D d 中的最小距离,并将相应的对象U V 合并, 和 (UV 得到聚类(UV ) 。 ) 与任一其他聚类W之间的距离为:

单连接
完全连接
平均连接
Company Logo
单连接法

单连接算法的输入可以是对象对之间的距离或者相似性。各个组由个 体通过合并最近邻近点而形成,此处的最近邻近点可以指最小距离或 者最大相似性。 一开始我们必须找到D d 中的最小距离,并将相应的对象U V 合并, 和 (UV 得到聚类(UV ) 。 ) 与任一其他聚类W之间的距离为:
Company Logo
纸牌分组

Company Logo
相似度量度

欧式距离:
d (x, y )
闵可夫斯基距离:
( x 1 y 1 ) ( x 2 y 2 ) ... ( x p y p )
将每个对象看成是一个类,我们的聚类从合并两个最接近的项目开始,由于
对象5和3合并,形成聚类(35)。为确定下一个聚类水平,我们需要得到聚类(35) 与其余1,2,4之间的距离。最近邻近点距离为:
Company Logo
分层聚类方法

分层聚类方法是通过一系列或者是相继的合并,或者是相继 的分割来进行的。 聚集分层方法中的连接法,主要分为:单连接、完全连接和 平均连接。
在这个距离阵中,各对聚类之间的最小距离为 (1)和聚类(35)合并,得到下一个聚类(135),算出
于是我们将聚类
我们得到下一个聚类水平的距离矩阵为:
Company Logo
单连接法聚类

各对聚类之间的最小最近邻近点距离为
,于是我们将对象4和2合并
得到聚类(24)。现在有两个不同的聚类(135) 和(24)。它们的最近邻近点距离(即 唯一的距离)为:
相关文档
最新文档