学位论文答辩

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

CLA原理图示
形式上,选举局部代理点的过程 是多棵树的生成的过程。图中,
空心样本点都指向唯一的一个可
以代表自己的点,而实心的样本 点在邻域内找不到可以代表自己
的点,因而标记自己为局部代理
点。局部代理点作为树的根结点, 可以代表其所属的簇;不同的局
部代理点之间相互连接通信,符
合一定条件的合并为更大的簇。
CLA算法
CLA算法
(4-7) (4-8)
CLA算法
CLA聚类示意图
相似聚类算法
DBSCAN算法 1. 依据参数Eps和MinPts,将 2. 去除所有噪声点; 3. 连接所有相距小于Eps的核心点; 点标记为核心点,边界点或噪声点;
4. 相互连通的核心点形成簇; 5. 将边界点划归到距其最近的核心点所在的簇。
密度峰值聚类算法 1. 逐一计算所有 2. 逐一计算所有 点的局部密度 ; 点的最近邻高密度点距离 ;
3. 绘制 - 图,选取 和 都大的点为簇中心点;
4. 将其他点指派到对应的簇中心所在的簇; 5. 移除噪声点。
DBSCAN原理图(简化近似示意)
密度峰值聚类算法原理示意图
17 10
4 15 16 14 12 5 11


边缘点


未被标记的点


我们假定内部点具有连接其周围样本点的能力,而这种连接能 力会在连接样本点的过程中不断被削弱,最后形成若干个簇。
LGC:内部点的连接过程
LGC算法
1.
计算各 点对应的 、 、 CE和CO; 将各 点粗略分类为内部点、 是 边缘点和未被标记的点;
初始化连接能力
连接下一个近邻点 更新连接能力
1372 104 1440 358 150 2000 2310 174 600 178 699
[185] 基因数据集 [186] UCI数据集, /ml
聚类算法简介
C1
LGC 算法
区分
簇中心区域和簇边缘区域的样本点
密度聚类算法通过设定
密度阈值
来区分核心点和边界点
“密度”起着衡量样本点的局部中心程度的作用,高于 设定密度阈值的区域可以认为是簇的中心区域。
密度作为局部中心量度的缺点
DBSCAN算法的一个主要缺点是密度阈 值不容易确定,甚至对有的数据集几 乎不可能找出一个合适的阈值,如左 图中的6个簇在阈值设置较低时只能 得到较大的三个簇A-B-C,当阈值设 置较高时,C1-C2-C3被正确发现,然 而簇A和簇B却被识别为噪声点。 左图引自算法OPTICS(Ankerst等人, 1999),而OPTICS是通过调整聚类策 略来解决上述DBSCAN的缺点。
Science: 寻找密度峰值聚类,2014 TPAMI: 主动聚类,2017
针对高维数据和特殊应用场景设计/优化聚类算法
TKDE: 增量式半监督聚类集成,2016 TNNLS:判别式聚类集成,2015
设计能更好地处理时序数据的聚类算法
TPAMI: Fast Nonparametric Clustering of Structured TimeSeries,2015 PRE:复杂信号聚类,2016
局部引力合力 CE
表达式(3-7) 表达式(3-11)
CO
表达式(3-12)
见学位论文第54~55页。
LGC:粗略分类
输入:



是 否 是
边缘点
未标记点
内部点
首先,我们将样本点粗略分为内部点和边缘点。
LGC:不同类型的点对应的性质
点的类型
是否有连接近邻点的能力 是否会阻碍内部点的连接能力
内部点
设计无参数或较少较易输入参数的聚类算法
TKDE: 依据长尾理论进行自动聚类,2016
设计用于大规模数据的高效聚类算法
ICDE: Traversal optimizations and analysis for large
graph clustering,2015
聚类评价
见学位论文第54~55页。
.
来源 [185] [186] [185] [186] [186] [186] [186] [186] [185] [186] [186] [186] 62

属性维数 4026 4 182 1024 34 4 649 19 1571 60 13 9
类个数 4 2 2 20 6 8 10 7 10 6 3 2
基于划分的方法 层次结构的方法 基于密度的方法 基于网格的方法
其他方法
BIRCH
CHAMELEON
DBSCAN
OPTICS
STING
CLIQUE
谱聚类方法(图论+分割)
引力聚类
国内外研究现状
聚 类 算 法
为 什 么 会 有 这 么 多
不同类型的聚类算法对“簇”的定义有较大
的差别
基于划分的方法中“簇”是类内距离最小的样 本点集
依据������-������图合并相距较近的 密度峰值点所代表的样本点 组成的簇
CLA与密度峰值聚类算法原理示意图
CLA算法
CLA与密度峰值聚类算法原理示意图
密度峰值聚类算法
参数对聚类结果的影响
实验数据集
数据集 Alizadeh-2000-v3(o)(D1) banknote(D2) chowdary-2006(D3) COIL20(D4) dermatology(D5) iris(D6) mfeat(D7) segment(D8) Su-2001(D9) syntheticcontrol(D10) wine(D11) wisconsin(D12)
该簇的核心的核心区域已形 成,准备生成下一个簇

是否还有未 被聚类的内 部点

否 连接停止
否 所有簇的核心区 域已形成
CLA算法
CLA算法是建立在局部引力模型基础之上的聚类算法,算法的 第一步是计算样本点对应的局部引力合力和CE值。随后,每个 样本点在自己的邻域内依据局部引力合力和CE值来寻找用于代
核心点相互连接形成簇,核 心点只要遇到边界点就会停 止连接
对于不同的数据集,往往需 要设定不同的局部密度阈值, 最佳阈值取决于数据样本点 的具体分布,这一定程度上 造成了DBSCAN算法对参数较 敏感
使用多个局部中心量度完成 聚类,CE的参数敏感度较低
CLA算法与密度峰值聚类算法
CLA算法
密度峰值聚类算法
博士学位论文答辩
《基于局部中心量度的聚类算法研究》
学校名称:华南理工大学 指导老师:余志文 教授 报告人:王志强,201510105289
目录 CONTENTS
1 聚类简介
2 局部引力聚类
3 mean shift与LCM
5 总结与展望
4 非参数检验技术评价聚类算法
论文结构
在投:TKDE
表自己的局部代理点。最后,选出的局部代理点之间相互通信,
聚集成簇。
CLA:局部代理点的选举
CLA算法中的样本点可以被认为有选举能力的选民,它们需要 在自己的近邻中选举出一个可以代表自己的局部代理点。通常,
作为选民的样本点希望局部代理点拥有较大的CE值和较小的局
部引力合力模长,且局部代理点最好可以出现在选民样本点的 局部引力合力所指向的方向上。这些条件可以用数学表达式形 式化为:
1 聚类简介
科学研究中,人们常需要依据待研究的数据样本的内禀结构特征将其分割为几 个团簇,我们将分割的过程称为聚类过程,分割的方法称为聚类算法。
聚类算法的研究意义
归纳过程
的基本手段
“物以类聚,人以群分” 《战国策·齐策三》 人脑记忆/再现/认知事物的需要 人类社会生产活动高效化的必然要求
使用“密度”衡量样本点的局部中心程度是上述缺点的根源,现 有算法虽然能使用精心设计的策略来改进,却没从根源上给出一 个普适于基于密度聚类算法的解决方案。
从特殊到一般:局部中心量度的提出
为什么密度会成为最早应用于聚类问题的局部中心量度
核密度估计法有着较完善的数学基础因而较容易推广到模式识别领 域 聚类中高密度区域在大多数情况下是簇的中心区域
基于密度的方法中“簇”是局部密度大于给定 阈值的可达点集
不同的聚类算法使用的聚类策略不同
不同类型的聚类算法使用的聚类策略不同 同一类型的聚类算法使用的聚类策略往往也有 较大的差别
聚类算法有效性的评价指标多样
国内外研究现状
提出新的聚类量度和新的聚类策略
当 前 聚 类 算 法
发 展 趋 势
算法 准备 寻找 范围 簇的 形成
需要计算出每个样本点对应 的CE
样本点会在其������个最近邻组 成的邻域内寻找CE值更大点 局部代理点相当于密度峰值 聚类算法中的密度峰值点, 局部代理点之间通过连接通 信的方式将通信可达的多个 局部代理点所代表的簇合并 为更大的簇
在整个样本空间中寻找密度 值更大的点
1.1 聚类简介 1.3 聚类评价指标简介 2.1 2.2 2.3 2.4
1.2 代表性的聚类算法简介 1.4 本文结构及实验代码
mean shift 局部中心量度(☆) 实验对比与分析(☆) 本章小节
TCYB 2016
3.1 引言 3.2 相关工作 3.3 局部引力模型(☆) 3.4 局部中心量度 的对比 讨论(☆) 3.5 本章小节 5.1 5.2 5.3 5.4 5.5 5.6
2.
内部点连接其近邻点,形成簇 3. 的核心区域;
4. 将未被聚类的 近的簇。 点划分到邻
连接能力>0

连接停止
见学位论文第69~70页。
LGC:簇核心区域的形成
任选取一个未被 聚类的内部点
连接下一个近邻点 否

将该内部点连接到的所有 点加入到当前簇
待连接的点 是边缘点?

簇中是否还 有未主动连 接的内部点? 否
局部中心量度是能表征样本点在局部空间的中心程度的量
正确地反映样本点在局部空间的中心程度
有良好的可解释性
相对容易设定的阈值
局部引力模型计算
局部引力模型
局部引力模型计算局部中心量度
CE值较大的点
CE值较小的点
局部引力模型计算局部中心量度
局部中心量度CO表征样本点的顺从程度(Coordination) 通常而言,簇边缘区域的样本点对应的局部引力的方向和它的近邻点较
RI、ARI和NMI的最大值为1 值越大代表聚类结果越理想
2 局部引力聚类
本部分我们先提出局部引力模型,随后提出两个局部量度CE和CO,接着我们设 计具体的聚类方法。形式上看,本部分的聚类方法可以将用户输入的样本点输 出为若干个簇。本部分对应学位论文第三章和第四章。
模式识别中广泛使用的“密度”
模式识别中的密度并不是一个物 理量,而是一个反映样本点密集
9
1 3 2 7
8
01
计算样本点的密度
6
13
18
Hale Waihona Puke 410218
17
14 11 12 109 876 5 13 16 15
3 2
LGC算法与DBSCAN算法
LGC算法 算法 准备
需要计算出每个样本点对应 的������、局部引力合力、CE和 CO
DBSCAN算法
聚类 过程中
参数 敏感性
内部点在相互连接时会受到 边缘点的阻碍,受阻碍的程 度由边缘点的局部引力合力 模长决定
聚类算法的研究意义
科学研究
的常用方法
计算机本学科处理问题中的常用方法 自然科学和经济学领域分析数据时的常用方法 人文社会学科也有使用聚类分析解决难题的例子
红学研究者用聚类算法支持《红楼梦》 聚类算法应用于社交网络和文本数据的挖掘中 由两个不同作者共同完成的观点
国内外研究现状
聚 类 算 法
为一致,因此拥有较高的CO值。
当前点和邻域点同向 当前点和邻域点同向
由局部引力模型计算局部中心量度
CE值表征样本点局部中心程度
CO值表征样本点局部中心程度
CE/CO的数值越大,条状柱的颜色越浅 CE/CO的绝对值越大,条状柱越长
LGC算法:概览
LGC算法:准备工作
局部量度
计算方法 表达式(3-8)
4.1 引言 4.2 LGC聚类算法(☆) 4.3 CLA聚类算法(☆) 4.4 相关聚类算法间的比 较(☆) 4.5 实验对比与分析(☆) 4.6 本章小节
TCYB 2017
引言 Friedman检验与多重比较检验 秩的计算方法(☆) 改进的Friedman检验与实验分析(☆) 多性能指标下的非参数检验(☆) 本章小节
程度的量,即样本点的数量与所
占体积的比值。 这里的密度本身就隐含着局部的
特性:是某一局部空间内部的样
本点的总数和空间体积的比值。 此处的“局部密度”一词主要是
为了与“概率密度”相区分:概
率密度满足归一性,在全空间概 率积分的值为1,而局部密度只是
一个大于等于0的实数。
密度在聚类中的功能
聚类算法中的密度的主要功能是
相关文档
最新文档