分类属性层次聚类算法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第8章 聚类分析
8.4.3 ROCK:分类属性层次聚类算法
• ROCK算法采用一种比较全局的观点,通过考虑 成对点的邻域情况进行聚类。如果两个相似的点
•凝聚的方法
– 首先将每个对象作为单独的一个原子簇 – 然后相继地合并相近的对象或原子簇 – 直到所有的原子簇合并为一个(层次的最上层),或
者达到一个终止条件
•分裂的方法
– 首先将所有的对象置于一个簇中 – 在迭代的每一步中,一个簇被分裂为更小的簇, – 直到最终每个对象在单独的一个簇中,或者达到一个
数据挖掘原理与SPSS Clementine应用宝典
元昌安 主编 邓 松 李文敬 刘海涛 编著
电子工业出版社
第8章 聚类分析
第8章 聚类分析
由NordriDesign提供 www.nordridesign.com
主要内容
•聚类分析原理 •聚类分析常用算法分类 •划分聚类方法 •层次聚类方法 •基于密度的聚类方法 •基于网格的聚类方法 •基于模型的聚类方法 •高维数据的聚类方法 •模糊聚类FCM •应用实例分析
d n,1 d n, 2
0
第8章 聚类分析
8.1.3 区间标度变量
•计算均值绝对偏差
•计算标准化的度量值
– 欧几里德距离 – 曼哈顿距离 – 明考斯基距离
第8章 聚类分析
8.1.4 二元变量
•简单匹配系数 •Jaccard系数 •Rao系数
第8章 聚类分析
8.1.5 分类型、序数型变量
终止条件
第8章 聚类分析
8.4.1 凝聚的和分裂的层次聚类
凝聚的 初始
步骤1
步骤2
步骤3
分裂的
a b c d e f
步骤4
ab de 步骤3
cdef def
步骤2
步骤1
步骤4 abcdef
初始
第8章 聚类分析
8.4.2 BIRCH:平衡迭代归约和聚类
•BIRCH通过聚类特征(Clustering Feature,CF) 对簇的信息进行汇总描述,然后对簇进行聚类。 • BIRCH算法的主要目标是使I/0时间尽可能小,
第8章 聚类分析
8.1.1聚类分析介绍
•聚类就是按照事物的某些属性,把事物聚集成类, 使类间的相似性尽可能小,类内相似性尽可能大。
•数据挖掘对聚类的典型要求如下:
– 可伸缩性 – 处理不同类型属性的能力 – 发现任意形状的聚类 – 用于决定输入参数的领域知识最小化 – 处理噪声数据的能力
第8章 聚类分析
ቤተ መጻሕፍቲ ባይዱ
8.1.2聚类分析中的数据类型
•数据矩阵:用m个变量(也称为属性)来表现n个
对象
x11 x12
x21
x22
xn1
xn2
x1m
x2m
xnm
•相异度矩阵:存储n个对象两两之间的近似度,通 常用一个维的矩阵表示
0
d 2,1 0
d 3,1 d 3, 2 0
参数,把n个对象分为k个簇,以使簇内具有较高的相似度, 而簇间的相似度最低。相似度的计算根据一个簇中对象的平 均值(被看作簇的重心)来进行。
Step1 任意选择k个对象作为初始的簇中心; Step2 repeat; Step3 根据与每个中心的距离,将每个对象赋给最近的簇; Step4 重新计算每个簇的平均值; Step5 until 不再发生变化。
……
…… ……
……
CF树的结构
…… 第一层
第8章 聚类分析
8.4.2 BIRCH:平衡迭代归约和聚类
BIRCH共包含四个阶段: • 预聚类阶段:扫描整个数据库,构建初始聚类特征树,
该树保存在内存中,用简洁的汇总信息或者叶子节点中 的子聚类来代表数据点的密集区域。 • (可选阶段)重新扫描叶子节点项,来构建一个更小的 CF-树。 • 采用别的聚类算法,对CF-tree的叶子节点进行聚类。 • (可选阶段)把前一个阶段中找到的聚类的质心,用作 种子来创建最终的聚类。其它数据点根据到这些种子所 代表聚类的远近来重新分配到各个聚类中。
•分类变量
•序数型变量
第8章 聚类分析
8.1.6 向量对象
•夹角余弦
•相关系数
第8章 聚类分析
8.2 聚类分析常用算法分类
•划分方法 •层次方法 •基于密度的方法 •基于网格的方法 •基于模型的方法 •高维数据的聚类方法 •模糊聚类FCM
第8章 聚类分析
8.3 划分聚类方法
•k-means k-means算法是基于质心的算法。k-means算法以k为
第8章 聚类分析
8.4.3 ROCK:分类属性层次聚类算法
• 分类属性的层次聚类算法针对具有分类属性的数 据使用了链接的概念。
– 对于聚类包含布尔或分类属性的数据,传统聚类算法 使用距离函数。
– 实验表明对分类数据聚类时,这些距离度量不能产生 高质量的簇。
– 大多数聚类算法在进行聚类时只估计点与点之间的相 似度;也就是说,在每一步中那些最相似的点合并到 一个簇中。这种局部方法很容易导致错误。
– 原因在于大型数据集通常不能完全装入内存中。 BIRCH算法通过把聚类分为多个阶段来达到此目的
– 首先通过构建CF-树对原数据集进行预聚类 – 在前面预聚类的基础上进行聚类
第8章 聚类分析
8.4.2 BIRCH:平衡迭代归约和聚类
C F1
C F2
……
C Fn
根层
C F11 C F12
……
C F1k
第8章 聚类分析
8.4 层次聚类方法
•8.4.1凝聚的和分裂的层次聚类 •8.4.2 BIRCH:平衡迭代归约和聚类 •8.4.3 ROCK:分类属性层次聚类算法 •8.4.4 CURE:使用代表点聚类方法 •8.4.5 Chameleon:动态建模层次聚类
第8章 聚类分析
8.4.1 凝聚的和分裂的层次聚类
第8章 聚类分析
8.3 划分聚类方法
•k-medoids 不采用簇中对象的平均值作为参照点,可以选用簇中
位置最中心的对象,即medoid。这样划分方法仍然是基于最 小化所有对象与其参照点之间的相异度之和的原则来执行的。
Step1 随机选择k个对象作为初始的代表对象; Step2 repeat; Step3 指派每个剩余的对象给离它最近的代表对象所代表的簇; Step4 随意地选择一个非代表对象; Step5 计算用代替的总代价S; Step6 如果,则用替换,形成新的k个代表对象的集合; Step7 until 不发生变化。
8.4.3 ROCK:分类属性层次聚类算法
• ROCK算法采用一种比较全局的观点,通过考虑 成对点的邻域情况进行聚类。如果两个相似的点
•凝聚的方法
– 首先将每个对象作为单独的一个原子簇 – 然后相继地合并相近的对象或原子簇 – 直到所有的原子簇合并为一个(层次的最上层),或
者达到一个终止条件
•分裂的方法
– 首先将所有的对象置于一个簇中 – 在迭代的每一步中,一个簇被分裂为更小的簇, – 直到最终每个对象在单独的一个簇中,或者达到一个
数据挖掘原理与SPSS Clementine应用宝典
元昌安 主编 邓 松 李文敬 刘海涛 编著
电子工业出版社
第8章 聚类分析
第8章 聚类分析
由NordriDesign提供 www.nordridesign.com
主要内容
•聚类分析原理 •聚类分析常用算法分类 •划分聚类方法 •层次聚类方法 •基于密度的聚类方法 •基于网格的聚类方法 •基于模型的聚类方法 •高维数据的聚类方法 •模糊聚类FCM •应用实例分析
d n,1 d n, 2
0
第8章 聚类分析
8.1.3 区间标度变量
•计算均值绝对偏差
•计算标准化的度量值
– 欧几里德距离 – 曼哈顿距离 – 明考斯基距离
第8章 聚类分析
8.1.4 二元变量
•简单匹配系数 •Jaccard系数 •Rao系数
第8章 聚类分析
8.1.5 分类型、序数型变量
终止条件
第8章 聚类分析
8.4.1 凝聚的和分裂的层次聚类
凝聚的 初始
步骤1
步骤2
步骤3
分裂的
a b c d e f
步骤4
ab de 步骤3
cdef def
步骤2
步骤1
步骤4 abcdef
初始
第8章 聚类分析
8.4.2 BIRCH:平衡迭代归约和聚类
•BIRCH通过聚类特征(Clustering Feature,CF) 对簇的信息进行汇总描述,然后对簇进行聚类。 • BIRCH算法的主要目标是使I/0时间尽可能小,
第8章 聚类分析
8.1.1聚类分析介绍
•聚类就是按照事物的某些属性,把事物聚集成类, 使类间的相似性尽可能小,类内相似性尽可能大。
•数据挖掘对聚类的典型要求如下:
– 可伸缩性 – 处理不同类型属性的能力 – 发现任意形状的聚类 – 用于决定输入参数的领域知识最小化 – 处理噪声数据的能力
第8章 聚类分析
ቤተ መጻሕፍቲ ባይዱ
8.1.2聚类分析中的数据类型
•数据矩阵:用m个变量(也称为属性)来表现n个
对象
x11 x12
x21
x22
xn1
xn2
x1m
x2m
xnm
•相异度矩阵:存储n个对象两两之间的近似度,通 常用一个维的矩阵表示
0
d 2,1 0
d 3,1 d 3, 2 0
参数,把n个对象分为k个簇,以使簇内具有较高的相似度, 而簇间的相似度最低。相似度的计算根据一个簇中对象的平 均值(被看作簇的重心)来进行。
Step1 任意选择k个对象作为初始的簇中心; Step2 repeat; Step3 根据与每个中心的距离,将每个对象赋给最近的簇; Step4 重新计算每个簇的平均值; Step5 until 不再发生变化。
……
…… ……
……
CF树的结构
…… 第一层
第8章 聚类分析
8.4.2 BIRCH:平衡迭代归约和聚类
BIRCH共包含四个阶段: • 预聚类阶段:扫描整个数据库,构建初始聚类特征树,
该树保存在内存中,用简洁的汇总信息或者叶子节点中 的子聚类来代表数据点的密集区域。 • (可选阶段)重新扫描叶子节点项,来构建一个更小的 CF-树。 • 采用别的聚类算法,对CF-tree的叶子节点进行聚类。 • (可选阶段)把前一个阶段中找到的聚类的质心,用作 种子来创建最终的聚类。其它数据点根据到这些种子所 代表聚类的远近来重新分配到各个聚类中。
•分类变量
•序数型变量
第8章 聚类分析
8.1.6 向量对象
•夹角余弦
•相关系数
第8章 聚类分析
8.2 聚类分析常用算法分类
•划分方法 •层次方法 •基于密度的方法 •基于网格的方法 •基于模型的方法 •高维数据的聚类方法 •模糊聚类FCM
第8章 聚类分析
8.3 划分聚类方法
•k-means k-means算法是基于质心的算法。k-means算法以k为
第8章 聚类分析
8.4.3 ROCK:分类属性层次聚类算法
• 分类属性的层次聚类算法针对具有分类属性的数 据使用了链接的概念。
– 对于聚类包含布尔或分类属性的数据,传统聚类算法 使用距离函数。
– 实验表明对分类数据聚类时,这些距离度量不能产生 高质量的簇。
– 大多数聚类算法在进行聚类时只估计点与点之间的相 似度;也就是说,在每一步中那些最相似的点合并到 一个簇中。这种局部方法很容易导致错误。
– 原因在于大型数据集通常不能完全装入内存中。 BIRCH算法通过把聚类分为多个阶段来达到此目的
– 首先通过构建CF-树对原数据集进行预聚类 – 在前面预聚类的基础上进行聚类
第8章 聚类分析
8.4.2 BIRCH:平衡迭代归约和聚类
C F1
C F2
……
C Fn
根层
C F11 C F12
……
C F1k
第8章 聚类分析
8.4 层次聚类方法
•8.4.1凝聚的和分裂的层次聚类 •8.4.2 BIRCH:平衡迭代归约和聚类 •8.4.3 ROCK:分类属性层次聚类算法 •8.4.4 CURE:使用代表点聚类方法 •8.4.5 Chameleon:动态建模层次聚类
第8章 聚类分析
8.4.1 凝聚的和分裂的层次聚类
第8章 聚类分析
8.3 划分聚类方法
•k-medoids 不采用簇中对象的平均值作为参照点,可以选用簇中
位置最中心的对象,即medoid。这样划分方法仍然是基于最 小化所有对象与其参照点之间的相异度之和的原则来执行的。
Step1 随机选择k个对象作为初始的代表对象; Step2 repeat; Step3 指派每个剩余的对象给离它最近的代表对象所代表的簇; Step4 随意地选择一个非代表对象; Step5 计算用代替的总代价S; Step6 如果,则用替换,形成新的k个代表对象的集合; Step7 until 不发生变化。