数据挖掘导论第8章中文PPT课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
‹#›
集群类型:基于密度
基于密度
– 簇是由低密度区域与其它高密度区域分开的点的密集区域。 – 当集群不规则或交织,并且存在噪声和异常值时使用。
6个基于密度的集群
数据挖掘导论
9/29/2020
‹#›
集群类型:概念集群
共享财产或概念集群
– 查找共享一些共同属性或表示特定概念的集群。 .
2个交叉的集群
模糊与非模糊
– 在模糊聚类中,一个点属于每个聚类,其权重在0和1之间 – 权重必须为1 – 概率聚类具有类似的特征
部分与完整
– 在某些情况下,我们只想聚集一些数据
非均质对均质
– 集群的大小,形状和密度大不相同
数据挖掘导论
9/29/2020
‹#›
集群类型
分离良好的集群 基于中心的集群 连续簇 基于密度的聚类 属性或概念 由目标函数描述
9/29/2020
‹#›
层次聚类
p1 p2
p3 p4
传统分层聚类
p1 p2
p3 p4
非传统的分层聚类
数据挖掘导论
p1 p2 p3 p4
传统树图
ቤተ መጻሕፍቲ ባይዱ
p1 p2
非传统树状图
p3 p4
9/29/2020
‹#›
群集集之间的其他区别
独占与非独占
– 在非排他性聚类中,点可以属于多个聚类 – 可以表示多个类或“边界”点
Compaq-DOWN, EMC-Corp-DOWN, Gen-Inst-DOWN, Motorola-DOWN,Microsoft-DOWN,Scientific-Atl-DOWN
Fannie-Mae-DOWN,Fed-Home-Loan-DOWN, MBNA-Corp-DOWN,Morgan-Stanley-DOWN
数据挖掘导论
在澳大利亚聚集降水
9/29/2020
‹#›
什么不是集群分析?
监督分类
– 有类标签信息
简单分割
– 按姓氏按字母顺序将学生分成不同的注册组
查询的结果
– 分组是外部规范的结果
图分区
– 一些相互关联和协同,但领域不相同
数据挖掘导论
9/29/2020
‹#›
集群的概念可能是模糊的
有多少个集群?
两个集群
有类似功能的组基因和蛋白
质,或具有相似价格波动的 2
组股票
总结
3
– 减少大型数据集的大小
4
Discovered Clusters
Applied-Matl-DOWN,Bay-Network-Down,3-COM-DOWN, Cabletron-Sys-DOWN,CISCO-DOWN,HP-DOWN,
DSC-Comm-DOWN,INTEL-DOWN,LSI-Logic-DOWN, Micron-Tech-DOWN,Texas-Inst-Down,Tellabs-Inc-Down,
– 说明相似性的类型 – 其他特性,例如自相关
尺寸 噪声和异常值 分发类型
– 全局目标函数方法的变化是将数据拟合到参数化模型。
从数据确定模型的参数。 混合模型假设数据是多个统计分布的“混合”。
数据挖掘导论
9/29/2020
‹#›
集群类型:目标函数…
将聚类问题映射到不同的域,并解决该域中的相关 问题
– 接近矩阵定义加权图,其中节点是被聚类的点,加权边 表示点之间的近似
数据挖掘导论
六个集群
四个集群
9/29/2020
‹#›
集群类型
聚类是一组聚类 分层和分区集群之间的重要区别 部分聚类
– 将数据对象划分成非重叠子集(聚类),使得每个数据对象恰 好在一个子集中
分层聚类
– 组织为分层树的一组嵌套集群
数据挖掘导论
9/29/2020
‹#›
分割聚类
原始的点
数据挖掘导论
分割聚类
数据挖掘集群分析:基本概念和算法
第二章 数据挖掘简介
数据挖掘导论
9/29/2020
1
什么是集群分析?
查找对象组,使得组中的对象将彼此相似(或相关),并 且与其他组中的对象不同(或不相关)
簇内距离被最小 化
群间距离最大化
数据挖掘导论
9/29/2020
‹#›
聚类分析的应用
理解
– 用于浏览的组相关文档,具 1
数据挖掘导论
9/29/2020
‹#›
聚类类型:目标函数
由目标函数定义的集群
– 找到最小化或最大化目标函数的集群。 – 列举所有可能的方法,将点分成聚类,并通过使用给定的目标函数
评估每个潜在的集群的“好”。 (NP问题) – 可以有全球或地方目标。
分层聚类算法通常具有局部目标 部分算法通常具有全局目标
– 聚类等效于将图形分成连接的组件,每个集群一个
– 想要最小化群集之间的边缘权重并且最大化群集内的边 缘权重
数据挖掘导论
9/29/2020
‹#›
输入数据的特性很重要
接近度或密度测量的类型
– 这是一个派生的度量,但是聚类的中心
稀疏性
– 说明相似性的类型 – 增加效率
属性类型
– 说明相似性的类型
数据类型
Natl-Semiconduct-DOWN,Oracl-DOWN,SGI-DOWN, Sun-DOWN
Apple-Comp-DOWN,Autodesk-DOWN,DEC-DOWN, ADV-Micro-Device-DOWN,Andrew-Corp-DOWN, Computer-Assoc-DOWN,Circuit-City-DOWN,
数据挖掘导论
9/29/2020
‹#›
集群类型:分离
分离的群集:
– 集群是一组点,使得集群中的任何点都比集群中的任何点更接 近(或更类似于)集群中的每个其他点。
3 well-separated clusters
数据挖掘导论
9/29/2020
‹#›
集群类型:基于中心
基于中心
– 群集是一组对象,使得群集中的对象比群集的“中心”更接近 (更类似于)任何其他群集的中心
– 聚类的中心通常是质心,聚类中所有点的平均值,或聚类的最 “代表性”点
4个基于中心的集群
数据挖掘导论
9/29/2020
‹#›
集群类型:基于连续性
连续簇(最近邻或传递)
– 聚类是一组点,使得聚类中的点与不在聚类中的任何点更接近 (或更类似于)聚类中的一个或多个其它点。
8个连续簇
数据挖掘导论
9/29/2020
Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP, Louisiana-Land-UP,Phillips-Petro-UP,Unocal-UP, Schlumberger-UP
Industry Group
Technology1-DOWN
Technology2-DOWN Financial-DOWN Oil-UP