聚类分析大数据
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 聚类分析
–把一组数据划分成聚类。
• 聚类是无监督分类: 没有预先定义的类。
应用领域
• • • • • • 图像分割 文档分类; 消费市场分析; DNA与生物信息学; 离群点(孤立点)分析; …
2018年8月23日星期四
Data Mining: Concepts and Techniques
4
怎样度量聚类方法?
d (i, j)
2018年8月23日星期四 Data Mining: Concepts and Techniques 12
标称型变量非相似性
• 二元变量的推广,它可以有超过 2的状态数,如 Map_Color,可以有 red, yellow, blue, green
• 方法 1: 简单匹配
– m: 匹配的数目, p: 全部变量的数目
数据挖掘: 概念与技术
— 第七章 —
2018年8月23日星期四
Data Mining: Concepts and Techniques
1
第七章 聚类分析
• 什么是聚类分析? • 数据类型及其相似性与非相似性计算 • 算法复杂性及近似算法概念 • 划分方法
– k-center、k-cluster、k-means、谱聚类NCut
解决方案:启发式方法与近似算法!
2018年8月23日星期四 Data Mining: Concepts and Techniques 29
一些定义
• P = {C1, C2, …, Ck}:n个对象的一个划分,满足条件 Ci (i = 1, 2, …, k), V = iCi, 及Ci Cj = (i j)。 • d(C):聚类C的直径,即d(C) = max{d(p, q) | p, q C}; 相应地,d(P) = max{d(Ci) | i = 1, 2…, k}为P的直径。 • r(C):聚类C的半径,这里的聚类半径是指具有最小 半径的一个球(仅考虑球的中心是一个实际对象), 它覆盖C的所有对象。相应地,r(P) = max{r(Ci) | i = 1, 2…, k}为P的半径。 • s(C):聚类C的分离度,即s(C) = min{d(p, q) | p C, q C};相应地,s(P) = min{d(Ci) | i = 1, 2…, k}为P的 分离度。
可用TOP500之首的天河一号进行全局优化?
2018年8月23日星期四
Data Mining: Concepts and Techniques
25
天河一号:大场面
2018年8月23日星期四
Data Mining: Concepts and Techniques
26
天河一号:敢与姚明试比高
2018年8月23日星期四
Data Mining: Concepts and Techniques
27
天河一号有关数据
• 天河一号由140个机柜组成,占地约70 0平方米,总重量约160吨。 • 6144个通用处理器, 5120个加速处理器,内 存总容量98TB,存储容量为2PB 。 • 峰值运算速度为每秒4700万亿次、持续运算 速度2507万亿次每秒浮点运算。 • 能耗:每小时耗电4040度,24小时满负荷工 作耗电接近10万度。
8
数据类型及其相似性与非相似 性计算
• 相似性与非相似性 • 区间值变量: • 二元变量: • 标称性, 序数性, 和比例标度型变量: • 混合类型的变量:
2018年8月23日星期四
Data Mining: Concepts and Techniques
9
区间值变量标准化
• 数据标准化
s: 1 – 计算平均绝对偏差 n (| x m | | x m | ... | x m |) 其中 m f 1 n (x1 f x2 f ... xnf )
距离:常用的非相似性度量
• 常见的距离有: Minkowski 距离:
d (i, j) (| x x | | x x | ... | x x | ) i1 j1 i2 j 2 ip jp
q q q q
• 如果q = 1, d 是Manhattan距离
d (i, j) | x x | | x x | ... | x x | i1 j1 i2 j 2 ip jp
2018年8月23日星期四
Data Mining: Concepts and Techniques
22
可能的聚类方案数
• S(n, k)表示把n个对象分成k个聚类的可能的划 分方案数,则有:
1 1 S (n, k ) 0 kS (n 1, k ) S (n 1, k 1)
二元变量非相似性
• 二元变量的可能性表
1
对象i
0 b d
sum a b cd p
对象 j
1 0
a c
sum a c b d
• 简单匹配系数 (如果二元变量是对称的):
d (i, j) bc a bc d bc a bc
• Jaccard系数 (若二元变量是不对称的):
2018年8月23日星期四 Data Mining: Concepts and Techniques 28
天河一号-其奈我何
• 把100个对象分成五组的可能方案数:S(100, 5) 1068 • 天河一号找到最优划分所需的时间:
1068 T 5 1015 3600 24 365 6.351044 年 (1千万亿)3 年
k
2018年8月23日星期四
Data Mining: Concepts and Techniques
24
– S(n, 2) = 2n-1 - 1 – S(15, 3) = 2375101, S(20, 4) = 45232115901; – S(25, 8) = 690223721118368580
• 若q = 2, d 是Euclidean距离:
d (i, j) (| x x |2 | x x |2 ... | x x |2 ) i1 j1 i2 j 2 ip jp
2018年8月23日星期四 Data Mining: Concepts and Techniques 11
• 一个 好的聚类方法 将会产生高质量的聚 类: 优化目标?
– 高的聚类内相似性
– 低的聚类间相似性
• 聚类方法的质量依赖于它所使用的相似 性的具体定义及具体实施.
2018年8月23日星期四 Data Mining: Concepts and Techniques 5
对数据挖掘中的聚类方法的要求
• • • • • • • • 可扩展性 能够处理不同数据类型 发现任意形状的聚类 参数越少越好 能够处理噪声和孤立点 能够处理高维数据 能够集成用户提出的各种约束
• 什么是聚类分析? • 数据类型及其相似性与非相似性计算 • 算法复杂性及近似算法概念 • 划分方法
– k-center、k-cluster、k-means、谱聚类NCut
• 层次方法
–单链接与全链接
2018年8月23日星期四 Data Mining: Concepts and Techniques 16
Baidu Nhomakorabea
–单链接与全链接
2018年8月23日星期四 Data Mining: Concepts and Techniques 7
数据结构
• 数据矩阵
–(2模)
x11 ... x i1 ... x n1 ... x1f ... ... ... xif ... ... ... xnf ... x1p ... ... ... xip ... ... ... xnp
• 层次方法
–单链接与全链接
2018年8月23日星期四 Data Mining: Concepts and Techniques 2
什么是聚类分析?
• “物以类聚,人以群分。”
–《战国策·齐策三》《周易·系辞上》
• 聚类: 一个数据对象的集合
–同一个聚类中的对象之间具有高度的相似性。 –不同聚类中的对象之间具有低的相似性。
2018年8月23日星期四
Data Mining: Concepts and Techniques
20
第七章 聚类分析
• 什么是聚类分析? • 数据类型及其相似性与非相似性计算 • 算法复杂性及近似算法概念 • 划分方法
– k-center、k-cluster、k-means、谱聚类NCut
• 层次方法
2018年8月23日星期四 Data Mining: Concepts and Techniques
k 1 k n k n else
23
庐山真面目
• 上述递归方程的解实际上是Stirling数:
1 k i k n S (n, k ) (1) i k! i 0 i
f 1f f 2f f nf f
.
– 计算标准化的度量差 (z-score)
xif m f zif sf
– 计算相似性或非相似性时,使用zif.。
• 考虑:一是没有量纲;二是使用这个平均绝 对偏差sf比使用标准差f对于孤立点具有更 好的鲁棒性。
2018年8月23日星期四 Data Mining: Concepts and Techniques 10
• 区分矩阵
–(1模)
2018年8月23日星期四
0 d(2,1) 0 d(3,1 ) d ( 3, 2 ) : : d ( n,1) d ( n,2)
Data Mining: Concepts and Techniques
0 : ... ... 0
向量对象间的余弦相似性
• 对于两个向量对象x, y,余弦度量是一种常 用的(特别是在信息检索领域)相似性度量:
x y s( x, y) || x ||2 || y ||2
T
2018年8月23日星期四
Data Mining: Concepts and Techniques
15
第七章 聚类分析
m d (i, j) p p
• 方法2: 使用一组二元变量
– 对标称型变量的每一个状态设置一个二元变量
2018年8月23日星期四 Data Mining: Concepts and Techniques 13
序数型变量非相似性
• 一个序数型变量可以离散化或连续化。
• 可以象区间标度变量一样处理
1 ,...,M f } – 用它们的秩rif替换xif, rif {
– 将每一个变量的范围映射到 [0, 1]
zif rif 1 M f 1
– 用计算区间值变量同样的方法计算非相似性
2018年8月23日星期四 Data Mining: Concepts and Techniques 14
2018年8月23日星期四
Data Mining: Concepts and Techniques
19
近似算法
• 对于一类优化问题П及一个算法A,我们说A的 近似比或性能比是(n) ( 1),如果对于П的任 意一个实例I,我们有:
– 对于最小化问题,cost(A(I)) / cost(opt(I)) (n)。 – 对于最大化问题,cost(opt(I)) / cost(A(I)) (n)。 – 其中A(I)表示算法A对于输入规模为n的实例I给出 的一个解,opt(I)表示I的最优解,cost()表示一个 解的值或费用。
问题的分类
2018年8月23日星期四
17
P与NP的通俗解释
• P问题:在多项式时间内能解决的问题。 • NP问题:在多项式时间内能验证的问题。
2018年8月23日星期四
Data Mining: Concepts and Techniques
18
NPC与NP-Hard
• NPC问题: –所有NP问题能在多项式时间内规约到 该问题 –且该问题本身属于NP问题。 • NP-Hard问题:所有NP问题能在多项式 时间内规约到该问题。
–单链接与全链接
2018年8月23日星期四 Data Mining: Concepts and Techniques 21
划分方法: 基本概念
• 划分方法: 把n个对象划分成k个非空、不 相交的聚类。 • 给定 k, 根据一定的优化准则找到一个最优 划分。
– 枚举所有可能的划分找到全局最优划分 ?
Data Mining: Concepts and Techniques 6
2018年8月23日星期四
第七章 聚类分析
• 什么是聚类分析? • 数据类型及其相似性与非相似性计算 • 算法复杂性及近似算法概念 • 划分方法
– k-center、k-cluster、k-means、谱聚类NCut
• 层次方法