第六讲 聚类分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Average:一个簇中元素与另一个簇中元素的平均距离, i.e.,
dis(Ki, Kj) = avg(tip, tjq)
Centroid:两个簇的质心距离, i.e., dis(Ki, Kj) = dis(Ci, Cj) Medoid: 两个簇的中心点距离, i.e., dis(Ki, Kj) = dis(Mi, Mj)
24
典型的计算簇间距离的方法
Single link: 一个簇中元素与另一个簇中元素的最近距离,
i.e., dis(Ki, Kj) = min(tip, tjq)
Complete link:一个簇中元素与另一个簇中元素的最远距离,
i.e., dis(Ki, Kj) = max(tip, tjq)
18
比例标度变量
比例标度变量: 在非线性的刻度取正的度量值,近似地遵循 指数比例,如 AeBt or Ae-Bt 方法:
采用与处理区间标度变量同样的方法处理。(刻度可能被 扭曲)
应用对数变换
yif = log(xif)
将它们看作连续的序数数据,将其秩作为区间值来对待。
19
混合类型变量
很难定义怎样是“足够相似”或是“足够好”,因 为其答案是相当主观的。
7
Requirements of Clustering in Data Mining
可伸缩的
处理不同类型属性的能力
处理动态数据的能力 处理任意形状的聚类
输入参数的确定需要尽量少的领域知识
处理带噪声数据的能力 对数据数据的顺序不敏感
22
主要聚类方法的分类
划分方法:
构建数据的k个划分,每个划分表示一簇。
Typical methods: k-means, k-medoids, CLARANS
层次方法:
构建给定数据对象集的层次分解 Typical methods: Diana, Agnes, BIRCH, ROCK, CAMELEON
为簇建立最合适的假设模型 Typical methods: EM, SOM, COBWEB
基于频繁模式
基于频繁模式的分析
Typical methods: pCluster
用户指导的或基于约束的方法:
考虑用户指定或应用指定的约束所作的聚类
Typical methods: COD (obstacles), constrained clustering
m:匹配数, p:全部变量数目,不匹配率:
d (i, j) p m p
17
序数变量
序数变量可以是离散的也可以是连续的
序数变量中,顺序很重要, 如,职称 在计算对象的相异度时,序数变量的处理与区间标度变量非常类似
第i个对象的f值为xif ,变量f 有Mf个有序的状态,表示秩评定1,…,Mf, rif { ,...,M f } 1 用对应的秩代替xif 。 将变量的值映射到 [0, 1],将第i个对象的第f个变量表示为 r 1 zif if M f 1 使用区间标量的相异度计算。
二元变量的相依表
1 0
a c
sum a c b d
对称二元变量(两个状态具有同等价值和 相同的权值)的距离度量 : 非对称二元变量的距离度量: (通常将出
d (i, j)
bc a bc d
现几率较小的结果编码为1)
d (i, j)
bc a bc
a a b c
15
高维性
满足用户指定的约束 可解释性和可用性
8
聚类分析
1. 什么是聚类分析?
2. 聚类分析中的数据类型
3. 主要聚类方法的分类 4. 划分方法 5. 层次方法 6. 基于密度的方法 7. 基于网格的方法 8. 基于模型的方法 9. 高维数据聚类 10. 基于约束的聚类 11. 离群点分析 12. 小结
相异度矩阵 d(i,j):对象i和j间的 相异度 (单模)
0 d(2,1) 0 d(3,1 d ( 3,2) ) : : d ( n,1) d ( n,2)
0 : ... ... 0
10
Type of data in clustering analysis
数据库可能包含下述六种类型变量 对称二元变量、不对称二元变量、分类变量、序数变 量、区间变量与比例标度变量
( ( p 1 ij f ) dij f ) d (i, j) f p ( f 1 ij f ) f 是二元或分类变量: 如果 xif = xjf , dij(f) = 0;否则dij(f) = 1 f 是区间变量: 使用规范化后的距离 f是序数或比例标度变量 zif r 1 计算秩 rif 并且 M 1 将zif 作为区间变量
保险: 赔付较高保险金额的保险持有者
城市计划:根据房子的类型、价值和地理位置对城
市中房屋的分组识别
5
Quality: What Is Good Clustering?
好的聚类方法:高内聚、低耦合 聚类结果的质量依赖于方法和实现中使用的相似度 度量。
聚类方法的质量还可以由它所发现一些或全部隐藏
if f
百度文库
20
Vector Objects
Vector objects: keywords in documents, gene features in micro-arrays, etc. Broad applications: information retrieval, biologic taxonomy, etc. Cosine measure
01 0.33 2 01 11 d ( jack, jim ) 0.67 111 1 2 d ( jim , mary) 0.75 11 2 d ( jack, mary)
16
分类变量
分类变量是二元变量的推广,它可以取多于两个状态值。
eg., red, yellow, blue, green
2
什么是聚类分析?
簇(cluster): 数据对象的集合
同一簇中对象相似
不同簇中对象相异
聚类(clustering):将物理或抽象对象的集合分成相似的对象类的过程 聚类分析
在数据中按照数据的特征找出相似处,将相似的数据对象分组到一 个聚类
无指导学习(Unsupervised learning):没有预定义的类
图象处理 经济科学(特别是市场研究) WWW
文档分类
聚类Weblog 数据,发现类似的存取模式组
4
Examples of Clustering Applications
市场:帮助市场分析员发现顾客的不同类别,并使 用这些知识开发目标市场程序。
国土利用:帮助识别地球观测数据库中国土利用相 似的区域。
模式的能力所衡量
6
Measure the Quality of Clustering
相异度/相似度矩阵:相似度表现为距离函数,矩阵 d(i, j) 对于不同的数据类型,距离函数(distance functions)的定义可能有很大的差别: 区间标量变 量、二元 变量、分类变量、序数变量和向量变量 权重的设置与应用中的不同变量有关。
A variant: Tanimoto coefficient
21
聚类分析
1. 什么是聚类分析?
2. 聚类分析中的数据类型
3. 主要聚类方法的分类 4. 划分方法 5. 层次方法 6. 基于密度的方法 7. 基于网格的方法 8. 基于模型的方法 9. 高维数据聚类 10. 基于约束的聚类 11. 离群点分析 12. 小结
Test-2 N N N
Test-3 N P N
Test-4 N N N
gender is a symmetric attribute the remaining attributes are asymmetric binary let the values Y and P be set to 1, and the value N be set to 0
12
对象间的相似度或相异度
距离:通常用于衡量两个对象之间的相似度或相 异度
闵可夫斯基距离(Minkowski distance): 其中, i = (xi1, xi2, …, xip) 和 j = (xj1, xj2, …, xjp) 是p维对象, q是非负整数
d (i, j) q (| x x |q | x x |q ... | x x |q ) i1 j1 i2 j2 ip jp
典型应用
作为一个独立的工具,用于观察数据的分布 作为其他算法的预处理步骤
3
聚类:多学科、广泛的应用
模式识别(Pattern Recognition)
空间数据分析(Spatial Data Analysis)
在GIS中,通过聚类特征空间,创建主题地图
检测空间聚类或其他空间挖掘任务
基于密度的方法:
基于连接和密度函数 Typical methods: DBSACN, OPTICS, DenClue
23
主要聚类方法的分类(II)
基于网格的方法:
基于多层网格结构 Typical methods: STING, WaveCluster, CLIQUE
基于建模的方法:
计算均值绝对偏差( mean absolute deviation)
s f 1 (| x1 f m f | | x2 f m f | ... | xnf m f |) n m f 1 (x1 f x2 f ... xnf ) n
.
其中
计算标准度量值( standardized measurement) (z-score) xif m f zif sf 使用均值绝对偏差比标准差对于离群点有更好的鲁棒性。
第六讲
聚类分析
1
聚类分析
1. 什么是聚类分析?
2. 聚类分析中的数据类型
3. 主要聚类方法的分类 4. 划分方法 5. 层次方法 6. 基于密度的方法 7. 基于网格的方法(自学) 8. 基于模型的方法(自学) 9. 高维数据聚类 (自学) 10. 基于约束的聚类 (自学) 11. 离群点分析(自学) 12. 小结
simJaccard(i, j) Jaccard 系数 (非对称二元变量的相似度):
Dissimilarity between Binary Variables
Example
Name Jack Mary Jim
Gender M F M
Fever Y Y Y
Cough N N P
Test-1 P P N
Interval-scaled variables(区间标度变量) Binary Variables (二元变量) Nominal, ordinal, and ratio variables(分类、序数和比例 调度变量)
混合类型变量
11
区间标度变量
区间标度变量:粗略线性标度的连续度量。如重量、经纬度、气温等 数据标准化?单位不同对聚类结果影响大
如果 q = 1, d 是曼哈顿距离(Manhattan distance)
d (i, j) | x x | | x x | ... | x x | i1 j1 i2 j2 ip jp
13
q = 2时, d 是欧几里德距离(Euclidean distance)
d (i, j) (| x x |2 | x x |2 ... | x x |2 ) i1 j1 i2 j2 ip jp
9
Data Structures
数据矩阵 N个对象,p个变量 (双模)
x11 ... x i1 ... x n1
... x1f ... ... ... xif ... ... ... xnf
... x1p ... ... ... xip ... ... ... xnp
特征
d(i,j) 0 d(i,i) = 0 d(i,j) = d(j,i) d(i,j) d(i,k) + d(k,j) (三角不等式)
可对某些变量根据重要性赋予权重
14
二元变量
Object j
二元变量只有两个状态:0 or 1
1
Object i
0 b d
sum a b cd p