基于密度的聚类和基于网格的两大聚类算法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

DENCLUE:基于密度分布函数的聚类
1
DBSCAN

基于密度的簇是密度相连的点的集合 主要思想
寻找被低密度区域分离的高密度区域 只要临近区域的密度(单位大小上对象或数据点的数
目)超过某个阈值,就继续聚类
2
DBSCAN

两个参数:
Eps:
邻域的最大半径
MinPts:
一个核心对象以 Eps为半径的邻域内的最小
o关于Eps 和 MinPts密度可达的,那么对象p和q是关 于Eps 和 MinPts 密度相连的。
密度相连性是一个对称的关系。
p
q
o
7
DBSCAN: 算法
算法:DBSCAN 输入:D-数据对象集合 ;Eps-邻域或称为半径 ; MinPts-密度阈值 输出:基于密度的簇的集合 方法: Step1 读取D中任意一个未分类的对象p; Step2 检索出与p的距离不大于Eps的所有对象Neps(p); Step3 如果 |Neps(p)|< MinPts (即p为非核心对象),则将p标记为噪 声,并执行Step1;
Step4 否则(即p为核心对象),给 Neps(p)中的所有对象打上一个新的类标签 newid,然后将这些对象压入堆栈的Seeds中; Step5 让CurrentObject = Seeds.top;然后检索属于Neps(CurrentObject) 的 所有对象;如果| Neps(CurrentObject) |>MinPts,则剔除已经打上标记的 对象,将余下的未分类对象打上类标签newid,然后压入堆栈; Step6 Seeds.pop,判断Seeds是否为空,是,则执行Step1 ,否则执行Step5。


4
DBSCAN
5
DBSCAN

密度可达的(Density-reachable)
对于对象p和核心对象q(关于E和MinPts),我们称p是从q(
关于E和MinPts)直接密度可达,若对象p在对象q的E邻域内。
如果存在一个对象链
p1, …, pn, p1 = q, pn = p ,pi+1 是
顶点数
p q
MinPts = 5
Eps = 1 cm
3
DBSCAN

密度 = 制定半径 (Eps)内点的个数 如果一个对象的 Eps 邻域至少包含最小数目 MinPts 个对象,则称该对象为核心对象(Core point) 如果一个对象是非核心对象, 但它的邻域中有核心 对象,则称该对象为边界点( Border point ) 除核心对象和边界点之外的点是噪声点( Noise point )
11
OPTICS:通过点排序识别聚类结构




算法思路 首先检查数据对象集合D中任一个对象的E—邻域。设定其 可达距离为“未定义”,并确定其核心距离,然后将对象 及其核心距离和可达距离写入文件。 如果P是核心对象,则将对象P的E—邻域内的对象N (P)插 入到一个种子队列中,包含在种子队列中的对象p’按到其 直接密度可达的最近的核心对象q的可达距离排序。 种子队列中具有最小可达距离的对象被首先挑选出来,确 定该对象的E一邻域和核心距离, 然后将其该对象及其核心距离和可达距离写入文件中,如 果当前对象是核心对象,则更多的用于扩展的后选对象被 插入到种子队列中。 这个处理一直重复到再没有一个新的对象被加入到当前的 种子队列 中。


OPTICS没有显式地产生一个数据集合簇,它为 自动和交互的聚类分析计算一个簇排序。
这个次序代表了数据的基于密度的聚类结构。较 稠密中的对象在簇排序中相互靠近。
10

OPTICS

簇排序选择这样的对象:即关于最小的E值,它是密度可 达的,以便较高密度(较低E值)的簇先完成。


对象p的核心距离:使p成为核心对象的最小Ɛ’。如果p 不是核心对象,那么p的核心距离没有任何意义。 可达距离:对象q到对象p的可达距离是指p的核心距离和 p与q之间欧几里得距离之间的较大值。如果p不是核心对 象,p和q之间的可达距离没有意义。
8
DBSCAN
Original Points
Clusters
特点: •抗噪声
• 能处理任意形状聚类
9
OPTICS:通过点排序识别聚类结构

对于真实的,高维的数据集合而言,参数的设置 通常是依靠经验,难以确定。

绝大多数算法对参数值是非常敏感的:设置的细 微不同可能导致差别很大的聚类结果。
OPTICS算法通过对象排序识别聚类结构。
12
OPTICS:通过点排序识别聚类结构

数据集的排序可以用图形描述,有助于可视化和理解数据集 中聚类结构,例如下图是一个简单的二维数据集的可达图。 其中三个高斯“凸起”反映数据集中比较稠密的部分。
13
OPTICS:通过点排序识别聚类结构

Step 1:有序种子队列初始为空.结果队列初始为空 ; Step 2:如果所有点处理完毕.算法结束;否则选择一个未处理对象( 即不在结果队列中)放人有序种子队列: Step 3:如果有序种子队列为空,返回Step 2,否则选择种子队列中的 第一个对象P进行扩张: Step 3.1:如果P不是核心节点.转Step 4;否则,对P 的E邻域内任一 未扩张的邻居q 进行如下处理 Step 3.1.1:如果q已在有序种子队列中且从P到 q的可达距离小于旧值 ,则更新q的可达距离,并调整q到相应位置以保证队列的有序性; Step 3.1.2:如果q不在有序种f队列中,则根据P 到q的可达距离将其插 入有序队列; Step 4:从有序种子队列中删除P.并将P写入结果队列中,返回Step 3
从pi关于Eps和MinPts 直接密度可达的,则对象p是从对象
q关于Eps和MinPts 密度可达的。
密度可达性是直接密度可达性的传递闭包,这种关系是非
对称的。 只有核心对象之间是相互可达的。 q p1
p
6
DBSCAN

密度相连的(Density-connected)
如果对象集合D中存在一个对ቤተ መጻሕፍቲ ባይዱo,使得对象p和q是从
基于密度的聚类方法


划分和层次方法旨在发现球状簇。他们很难发现 任意形状的簇。 改进思想,将簇看作数据空间中由低密度区域分 隔开的高密度对象区域。这是基于密度的聚类方 法的主要策略。 基于密度的聚类方法可以用来过滤噪声孤立点数 据,发现任意形状的簇。
DBSCAN:基于高密度连通区域聚类 OPTICS:通过点排序识别聚类结构
相关文档
最新文档