大数据聚类分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
➢高的簇内相似性 ➢低的簇间相似性 聚类结果的好坏取决于该聚类方法采用的相似性 评估方法以及其具体实现;
聚类方法的好坏还取决于该方法发现隐含模式的 能力;
数据挖掘对聚类分析的要求 (1)
• 可扩展性(可伸缩性)
– 大多数来自于机器学习和统计学领域的聚 类算法在处理数百条数据时能表现出高效
率,但是……
处理噪声数据的能力(抗噪性、健壮 性、容错性) 对空缺值、离群点、数据噪声不敏 感
数据挖掘对聚类分析的要求 (2)
对于输入数据的顺序不敏感
同一个数据集合,以不同的次序提 交给同一个算法,应该产生相似的 结果
高维性
高维的数据往往比较稀松,而且高 度倾斜
数据挖掘对聚类分析的要求 (2)
基于约束的聚类
对象间的相似度和相异度(1)
对象间的相似度和 相异度是基于两个 对象间的距离来计 算的
Euclidean距离
d(i, j) (| xi1 x j1 |2 | xi2 x j2 |2 ...| xip x jp |2 )
Manhattan距离
d(i, j) | xi1 x j1 | | xi2 x j2 | ...| xip x jp |
保险: 对购买了汽车保险的客户,标识那些有 较高平均赔偿成本的客户
聚类分析的典型应用
城市规划: 根据类型、价格、地理位置等来划 分不同类型的住宅;
地震研究: 根据地质断层的特点把已观察到的 地震中心分成不同的类;
什么是好的聚类分析?
什么是好的聚类分析?
一个好的聚类方法要能产生高质量的聚类结果—— 簇,这些簇要具备以下两个特点:
Object j
1 0 sum 1 a b ab Object i 0 c d c d sum a c b d p
作为一个独立的工具来获得数据分 布的情况
作为其他算法(如:特征和分类) 的预处理步骤
聚类分析的典型应用
模式识别 空间数据分析 商务应用中 万维网 ……
聚类分析的典型应用
市场销售: 帮助市场人员发现客户中的不同群 体,然后用这些知识来开展一个目标明确的 市场计划;
土地使用: 在一个陆地观察数据库中标识那些 土地使用相似的地区;
大数据技术概论
大数据聚类分析
技术创新,变革未来
什么是聚类分析?
聚类分析 将物理或抽象对象的集合分组成为 由类似的对象组成的多个类的过程
聚类(簇):数据对象的集合 在同一个聚类(簇)中的对象彼此 相似 不同簇中的对象则相异
什么是聚类分析?
聚类是一种无指导的学习:没有预定 义的类编号
聚类分析的数据挖掘功能
区间标度变量
– 计算平均的绝对偏差
s f 1n (| x1f mf | | x2 f mf | ...| xnf mf |)
– 其中
mf
1 n
(x1
f
x2 f
x ... nf
).
– 计算标准化的度量值(z-score)
x m
zif
if
s
f
f
– 使用平均的绝对偏差往往比使用标 准差更具有健壮性
相异度矩阵(对 象-对象结 构,n*n):存储n 个对象两两之间 的临近度
也叫单模矩阵, 行和列代表相同 的实体
x11 ...
... x1f ... ...
xi1
... xif
... ... ...
xn1
... xnf
... ...
x1p ...
...
xip
... ...
...
xnp
找到既满足约束条件,又具有良好 聚类特性的数据分组
可解释性和可用性
聚类要和特定的语义解释和应用相 联系
聚类分析中的数据类型和距离计算
聚类分析中的数据类型
• 许多基于内存的聚 类算法采用以下两 种数据结构 – 数据矩阵(对象变量结构,n*p): 用p个变量来表示 n个对象 • 也叫二模矩阵, 行与列代表不同 实体
对象间的相似度和相异度(2)
Manhattan距离和Euclidean距离的性质 d(i,j) 0 d(i,i) = 0 d(i,j) = d(j,i) d(i,j) d(i,k) + d(k,j)
对象间的相似度和相异度(2)
Minkowski距离
d(i, j) q (| xi1 x j1 |q | xi2 x j2 |q ...| xip x jp |q )
0
d(2,1)
0
d(3,1) d(3,2) 0
:
::
d(n,1) d(n,2) ... ... 0
相异度计算
许多聚类算法都是以相异度矩阵为基 础,如果数据是用数据矩阵形式表示, 则往往要将其先转化为相异度矩阵。
相异度计算
• 许多聚类算法都是以相异度矩阵为基 础,如果数据是用数据矩阵形式表示, 则往往要将其先转化为相异度矩阵。
x11 ...
... x1f ... ...
xi1
... xif
... ... ...
xn1
... xnf
... ...
x1p ...
...
xip
... ...
...
xnp
ቤተ መጻሕፍቲ ባይዱ
0
d(2,1)
0
d(3,1) d(3,2) 0
:
::
d(n,1) d(n,2) ... ... 0
聚类分析中的数据类型
• 相异度d(i,j)的具体计算会因所使用的 数据类型不同而不同,常用的数据类 型包括:
– 区间标度变量、二元变量、标称型、 序数型、比例标度型变量、混合类 型的变量
区间标度变量
区间标度度量是一个粗略线性标度的 连续度量,比如重量、高度等
选用的度量单位将直接影响聚类分析 的结果,因此需要实现度量值的标准 化,将原来的值转化为无单位的值, 给定一个变量f的度量值,可使用以 下方法进行标准化:
上式中,q为正整数,如果q=1则表示 Manhattan距离,如果q=2则表示 Euclidean距离
二元变量 (1) • 一个二元变量只有两种状态:0或1;
– e.g. smoker来表示是否吸烟 • 一个对象可以包含多个二元变量。 • 二元变量的可能性表:
– 如何计算两个二元变量之间的相似度?
• 处理不同数据类型的能力
– 数字型;二元类型,分类型/标称型,序数 型,比例标度型等等
• 发现任意形状的能力
–
基于距离的聚类算法往往发现的是球形的 聚类,其实现实的聚类是任意形状的
数据挖掘对聚类分析的要求 (1)
用于决定输入参数的领域知识最小化 对于高维数据,参数很难决定,聚 类的质量也很难控制
聚类方法的好坏还取决于该方法发现隐含模式的 能力;
数据挖掘对聚类分析的要求 (1)
• 可扩展性(可伸缩性)
– 大多数来自于机器学习和统计学领域的聚 类算法在处理数百条数据时能表现出高效
率,但是……
处理噪声数据的能力(抗噪性、健壮 性、容错性) 对空缺值、离群点、数据噪声不敏 感
数据挖掘对聚类分析的要求 (2)
对于输入数据的顺序不敏感
同一个数据集合,以不同的次序提 交给同一个算法,应该产生相似的 结果
高维性
高维的数据往往比较稀松,而且高 度倾斜
数据挖掘对聚类分析的要求 (2)
基于约束的聚类
对象间的相似度和相异度(1)
对象间的相似度和 相异度是基于两个 对象间的距离来计 算的
Euclidean距离
d(i, j) (| xi1 x j1 |2 | xi2 x j2 |2 ...| xip x jp |2 )
Manhattan距离
d(i, j) | xi1 x j1 | | xi2 x j2 | ...| xip x jp |
保险: 对购买了汽车保险的客户,标识那些有 较高平均赔偿成本的客户
聚类分析的典型应用
城市规划: 根据类型、价格、地理位置等来划 分不同类型的住宅;
地震研究: 根据地质断层的特点把已观察到的 地震中心分成不同的类;
什么是好的聚类分析?
什么是好的聚类分析?
一个好的聚类方法要能产生高质量的聚类结果—— 簇,这些簇要具备以下两个特点:
Object j
1 0 sum 1 a b ab Object i 0 c d c d sum a c b d p
作为一个独立的工具来获得数据分 布的情况
作为其他算法(如:特征和分类) 的预处理步骤
聚类分析的典型应用
模式识别 空间数据分析 商务应用中 万维网 ……
聚类分析的典型应用
市场销售: 帮助市场人员发现客户中的不同群 体,然后用这些知识来开展一个目标明确的 市场计划;
土地使用: 在一个陆地观察数据库中标识那些 土地使用相似的地区;
大数据技术概论
大数据聚类分析
技术创新,变革未来
什么是聚类分析?
聚类分析 将物理或抽象对象的集合分组成为 由类似的对象组成的多个类的过程
聚类(簇):数据对象的集合 在同一个聚类(簇)中的对象彼此 相似 不同簇中的对象则相异
什么是聚类分析?
聚类是一种无指导的学习:没有预定 义的类编号
聚类分析的数据挖掘功能
区间标度变量
– 计算平均的绝对偏差
s f 1n (| x1f mf | | x2 f mf | ...| xnf mf |)
– 其中
mf
1 n
(x1
f
x2 f
x ... nf
).
– 计算标准化的度量值(z-score)
x m
zif
if
s
f
f
– 使用平均的绝对偏差往往比使用标 准差更具有健壮性
相异度矩阵(对 象-对象结 构,n*n):存储n 个对象两两之间 的临近度
也叫单模矩阵, 行和列代表相同 的实体
x11 ...
... x1f ... ...
xi1
... xif
... ... ...
xn1
... xnf
... ...
x1p ...
...
xip
... ...
...
xnp
找到既满足约束条件,又具有良好 聚类特性的数据分组
可解释性和可用性
聚类要和特定的语义解释和应用相 联系
聚类分析中的数据类型和距离计算
聚类分析中的数据类型
• 许多基于内存的聚 类算法采用以下两 种数据结构 – 数据矩阵(对象变量结构,n*p): 用p个变量来表示 n个对象 • 也叫二模矩阵, 行与列代表不同 实体
对象间的相似度和相异度(2)
Manhattan距离和Euclidean距离的性质 d(i,j) 0 d(i,i) = 0 d(i,j) = d(j,i) d(i,j) d(i,k) + d(k,j)
对象间的相似度和相异度(2)
Minkowski距离
d(i, j) q (| xi1 x j1 |q | xi2 x j2 |q ...| xip x jp |q )
0
d(2,1)
0
d(3,1) d(3,2) 0
:
::
d(n,1) d(n,2) ... ... 0
相异度计算
许多聚类算法都是以相异度矩阵为基 础,如果数据是用数据矩阵形式表示, 则往往要将其先转化为相异度矩阵。
相异度计算
• 许多聚类算法都是以相异度矩阵为基 础,如果数据是用数据矩阵形式表示, 则往往要将其先转化为相异度矩阵。
x11 ...
... x1f ... ...
xi1
... xif
... ... ...
xn1
... xnf
... ...
x1p ...
...
xip
... ...
...
xnp
ቤተ መጻሕፍቲ ባይዱ
0
d(2,1)
0
d(3,1) d(3,2) 0
:
::
d(n,1) d(n,2) ... ... 0
聚类分析中的数据类型
• 相异度d(i,j)的具体计算会因所使用的 数据类型不同而不同,常用的数据类 型包括:
– 区间标度变量、二元变量、标称型、 序数型、比例标度型变量、混合类 型的变量
区间标度变量
区间标度度量是一个粗略线性标度的 连续度量,比如重量、高度等
选用的度量单位将直接影响聚类分析 的结果,因此需要实现度量值的标准 化,将原来的值转化为无单位的值, 给定一个变量f的度量值,可使用以 下方法进行标准化:
上式中,q为正整数,如果q=1则表示 Manhattan距离,如果q=2则表示 Euclidean距离
二元变量 (1) • 一个二元变量只有两种状态:0或1;
– e.g. smoker来表示是否吸烟 • 一个对象可以包含多个二元变量。 • 二元变量的可能性表:
– 如何计算两个二元变量之间的相似度?
• 处理不同数据类型的能力
– 数字型;二元类型,分类型/标称型,序数 型,比例标度型等等
• 发现任意形状的能力
–
基于距离的聚类算法往往发现的是球形的 聚类,其实现实的聚类是任意形状的
数据挖掘对聚类分析的要求 (1)
用于决定输入参数的领域知识最小化 对于高维数据,参数很难决定,聚 类的质量也很难控制