DM-Ch-08 数据挖掘算法——聚类分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Hierarchy algorithms(层次算法): Create a hierarchical
(de)composition of the set of data using some criterion Density-based(基于密度方法): based on connectivity and density functions Grid-based(基于网格方法): based on a multiple-level granularity structure Model-based (基于模型方法) : A model is hypothesized for each of the clusters(簇) to find the best fit of data
10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10
第 24 页
k-平均值法聚类算法说明
平方误差准则
E i 1 pC i | p m i |
k 2
其中p: 对象; mi : 簇Ci的均值 方法局限性:
只有当簇均值有定义时才能使用,不适 合分类数据 必须事先指定簇的数目 k 对噪声和离群点数据敏感,不易处理 不适合于发现非球状簇
第 25 页
k-中心点法聚类方法
找到代表性对象, 称为簇的中心点
PAM 算法, 1987
从初始中心点集合开始,在能改进聚类结 果的总距离的条件下,用一个非中心点替 换一个中心点反复迭代 (最小化每个对象 与对应参考节点相异度的总值 )
m f 1 ( x1 f x 2 f n
...
x nf
if
)
f {1, 2 ,..., p }
-- 标准化度量 (z-score)
z if
x m s
f
f
第 12 页
对象间的相似度和相异度
距离(Distances) 经常用来度量两个对象之间 的相似度和相异度
Euclidean distance(欧几里德距离):
聚类分析的典型应用
模式识别 空间数据分析 图像处理 经济科学 (特别是市场研究) WWW:文档分类 聚类: -- 发现总体的分布模式 -- 发现数据属性中感兴趣的关联
第5页
聚类分析应用的一些例子
Marketing市场: Help market analysts discover distinct groups in their customer databases, and then use this knowledge to develop targeted marketing programs Land use国土利用: Identification of areas of similar land use in an earth observation database City-planning城市规划: Identifying groups of houses according to their house type, value, and geographical location Earth-quake studies地震研究: Observed earth quake epicenters(震中) should be clustered along continent faults(大 陆断层) Etc…
第 11 页
区间标值型 (variabl重量、高
度等 数据标准化 :选用的度量将影响聚类分析的结果,meter -> inch (height) 如何标准化: 将原来的值转化为无单位变量
-- 绝对偏差:
其中
s f 1 (| x1 f m f | | x 2 f m f | ... | x nf m f |) n
第6页
什么是好的聚类
一个好的聚类方法应该形成高质量的簇: high intra-class similarity(类内高相似) low inter-class similarity(类间低相似) 聚类结果的质量依赖于聚类方法的相似性指 标以及它的实现 聚类方法的质量通过它能发现一些或所有隐 含模式的能力进行评估
1 1 a c ac 0 b d bd sum ab cd p
Object i
0 sum
简单匹配系数(如果二元变量是对称的):
d (i , j ) bc abcd
Jaccard系数 (如果二元变量是非对称的):
d (i , j ) bc abc
第 15 页
对象间的相似度和相异度
d (i , j ) (| x x | | x x | ... | x x | ) i1 j1 i2 j2 ip jp
2 2 2
Properties
d(i,j) 0
d(i,i) = 0
d(i,j) = d(j,i) d(i,j) d(i,k) + d(k,j)
Example
N am e Jack M ary Jim G en d er F ev er C o u g h T est-1 M F M Y Y Y N N Y P P N T est-2 N N N T est-3 N P N T est-4 N N N
gender is a symmetric attribute the remaining attributes are asymmetric binary let the values Y and P be set to 1, and the value N be set to 0
d ( jack , mary ) 0 1 2 0 1 1 1 1 1 1 1 2 1 1 2 0 . 33
d ( jack , jim ) d ( jim , mary )
0 . 67 0 . 75
第 16 页
标称型
可以取多于2个状态值, e.g.,对map_color变量取
第9页
两种典型的数据结构
x 11 数据矩阵 ... 对象-变量(元组与属性) x i1 ... 结构(two modes:n x p) x n1 相异度矩阵 对象-对象结构 (one mode) ... ... ... ... ... x x 1f ... if ... nf ... ... ... ... ... 1p ... x ip ... x np x
第 20 页
Ch06 数据挖掘算法——聚类分析
什么是聚类分析? 聚类分析的数据类型 主要聚类分析方法分类 划分方法 层次方法 总结
第 21 页
划分算法:基本概念
划分方法: 把有n个对象的数据集D划分k个簇
给定k, 找到k个簇的划分最优化划分准则,如距离等 全局最优: 最大限度列举所有划分
典型方法: k-均值算法和k-中心点算法 k-means (k-平均值法): 每个簇由簇的中心 点表示 k-medoids (k-中心点法): 每个簇由簇中的 一个对象表示
x
0 d(2,1) d(3,1 ) : d ( n ,1)
0 d ( 3, 2 ) : d ( n ,2 ) 0 : ... ...
0
第 10 页
聚类分析的数据类型
如何度量相异性d(i, j)
-- 相异性的度量 (距离的度量) 与数据类型相关: Interval-scaled type (区间标值型) Binary type(二元型) Categorical/Nominal type 标称型 Mixed types(上述类型的组合型)
第7页
数据挖掘对聚类的要求
可扩展性
处理不同类型属性的能力
发现任意形状的簇 对于决定输入参数的领域知识需求最小 能处理噪声数据 增加聚类和对输入记录的次序不敏感
高维性 (> 3)
与用户定义的约束的协同能力
可解释性和可用性
第8页
Ch06 数据挖掘算法——聚类分析
什么是聚类分析? 聚类分析的数据类型 主要聚类分析方法分类 划分方法 层次方法 总结
d (i , j )
( ij( f ) d ij f ) ( p 1 ij f ) f p f 1
给定 p个混合型变量: ij( f ) 0 if xif = xjf =0 (or missing value); ( otherwise ij f ) 1 f 是二元或标称变量: dij(f) = 0 if xif = xjf , or dij(f) =1 f 区间标值变量: 使用规范化距离
什么是聚类分析? 聚类分析的数据类型 主要聚类分析方法分类 划分方法 层次方法 总结
第3页
什么是聚类分析?
簇:数据对象的集合 聚类原则:
在同一个簇中的对象彼此相似 与其它簇中的对象相异
聚类分析
将数据集对象分类到簇中
聚类是无监督分类:没有预定义的分类 典型应用
作为独立工具获取数据分布的知识 作为其它算法的预处理步骤 (i.e., 关联分 第4页 析和分类etc)
Z S T U
ZHEJIANG SCI-TECH UNIVERSITY
经济管理学院管理科学与工程系
本章学习目的
学习完本章后,需要了解和掌握的内容: 聚类的概念和聚类分析的过程 确定不同类型数据相似性度量 掌握一些主要的聚类方法
划分聚类分析方法 层次聚类分析方法
第2页
Ch06 数据挖掘算法——聚类分析
红、黄、绿、蓝
Method 1: 简单匹配
m: # of matches, p: total # of variables
d (i , j ) pm p
Method 2: 使用大量的二元变量 (for不对称型)
通过为M个状态的每一个创建一个二元变 量
第 17 页
混合型
一个对象(元组)可能包含多种类型的值 可以使用一种权重公式综合它们的影响
第 18 页
Ch06 数据挖掘算法——聚类分析
什么是聚类分析? 聚类分析的数据类型 主要聚类分析方法分类 划分方法 层次方法 总结
第 19 页
主要聚类方法
Partitioning algorithms(划分算法): Construct various partitions and then evaluate them by some criterion
第 13 页
对象间的相似度和相异度
闵可夫斯基距离(Minkowski distance) :
d (i , j )
q
(| x x | | x x | ... | x x | ) i1 j1 i2 j2 ip jp
q
q
q
where i = (xi1, xi2, …, xip) and j = (xj1, xj2, …, xjp) are two p-dimensional data objects, and q is a positive integer
第 22 页
k-平均值法聚类算法
输入: 簇的数目k和n个对象的数据集D 输出: k 个簇,最小化平方误差准则收敛 Method: (1) 从D中选择 k 个对象作为初始簇中心; (2) Repeat (3) 根据簇中对象的均值,将每个对象(再)指 派到最相似的簇; (4) 更新簇均值,即计算每个簇中对象的均值 (5) Until 不再发生变化(by squared-error criterion);
第 23 页
k-平均值法聚类算法
Example
10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 10 9 8 7 6 5
+
+
4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10
10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10
如果q = 1, d 就是曼哈顿距离(Manhattan distance): d (i, j ) | x x | | x x | ... | x x |
i1 j1 i2 j2 ip jp
第 14 页
二元型
二元变量只有两种状态:0或1 用于二元变量的相依表
Object j