子空间聚类算法解析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
能出现明显下降,难以解决实际问题中的实时性问题; 3) 数据簇之间或数据类之间的差异无法判断。由于高维空间中存在大量冗余的特征,使得在整个
特征空间中,各个样本点之间的距离几乎是相等的。
最后,数据挖掘越来越强调多学科的交叉,不仅需要灵活运用统计学、计算机、数学等建 模技术,还需要具有生物学、脑科学、证券金融等学科的知识背景
算法框架
CLIQUE 聚类算法包含下列步骤: 找出包含密集的子空间:对n维数据空间进行划分,划分为互不相交的矩
形单元,同时识别其中的密集单元。 识别聚类:可运用深度优先算法来发现空间中的聚类。 为每个簇生成最小化的描述:对于每个簇来说,它确定覆盖相连的密集单
元的最大区域,然后确定最小的覆盖区域。
根据目前的研究结果,子空间聚类可以分为硬子空间聚类和软子空间聚类两种形式。 更具体而言,根据搜索方式的不同,硬子空间聚类方法又可分为自底向上的子空间搜索算
法和自顶向下的子空间搜索算法两种;对于软子空间聚类方法而言,根据特征加权不确定 性表示方式的不同,可以分为模糊加权软子空间聚类和熵加权软子空间聚类两种
自底向上子空间聚类算法
自底向上子空间聚类算法一般是基于网格密度,采用自底向上搜索策略进行的子空间聚类 算法。它先将原始特征空间分成若干个网格,再以落到某网格中样本点的概率表示该子空 间的密度情况。对于密度超过一定阈值的子空间作为密集单元进行保留,而对非密集的子 空间进行舍弃。
经典的自底向上子空间聚类方法有最早的静态网格聚类算法CLIQUE、利用熵理论作为密 度度量的 ENCLUS 方法,以及后来提出的通过动态查找策略,得到更加稳定划分结果的 子空间聚类算法:MAFIA和 DOC等
CLIQUE算法采用了基于网格和密度的方法。首先对每个属性进行等分,整个数据空间就被 分成一个超长方体集合,对每个单元进行数据点计数,大于某个阈值的单元称这稠密单元, 然后对稠密单元进行连接就构成类。不同于其它方法,它可以自动地识别嵌入在数据子空 间中的类。
右图是识别子空间聚类的示意图在由年龄和 工资两维构成的原始空间中没有密集区域,但是在 其由工资一维构成的子空间中,存在两个密集区域 , 形 成 两 个 类 ( 1000≤ 工 资 ≤ 3000 和 5000≤ 工 资 ≤6000)而在由年龄一维构成的子空间中没有密集 区域,不形成任何聚类。
数据挖掘的主要过程包括数据准备、信息挖掘、结果表达和解释三个处理阶段 数据准备是指从相关的数据源中选取所需的数据样本,将其整合成用于数据分析的样本集; 信息挖掘是指利用各种数据挖掘算法将所得的样本集中包含的规律信息或潜在模式挖掘出
来; 结果表达和解释是指尽可能以用户可理解的方式将找出的规律或模式表示出来
Clique算法的优缺点
优点: CLIQUE可自动发现最高维的子空间,高密度聚类存在与这些子空间中。CLIQUE对元组的输 入顺序不敏感,无需假设任何规范的数据分布。它随输入数据的大小线性地扩展。当数据 维数增加时具有良好的可伸缩性。 缺点: 1、子空间剪枝:CLIQUE 算法应用了一种剪枝技术来减少密集单元候选集的数目,但可能 遗失一些密集。如果一个密集存在于k维空间中,那么它的所有子空间映射都是密集的。在 自底向上的算法中,为了发现一个k维的密集所有的子空间都应该被考虑,但如果这些子空 间在被剪掉的空间中,那么这个密集就永远不可能发现了。 2、由于算法中的很多步骤都大大简化,以及很多步骤用的是近似算法,所以聚类结果的精 确性可能会降低。
CLIQUE算法
在高维(多属性)空间中进行聚类,一般的聚类算法要求有一个降维的预处理过程,典型 的做法是:(1)由用户指定其中的若干重要属性,从而达到维度的降低;(2)通过属性 约简,将一些不重要的属性去掉,经常采用的方法有主成分分析法和粗糙集方法;(3) 将数据空间通过不同维度的线性组合变换到一个低维空间中,使得不同点间的间隔在两个 空间中近似相同。但是这些方法都存在一定的缺陷,对于前两种方法有丢失有趣的结构或 模式的可能。对于第三种方法因为进行了属性的组合,打乱了与原空间的对应关系,使得 产生的聚类结果很难解释。
研究背景和意义
在过去的几十年里,随着科学技术的进步,数据采集及存贮能力得到了快速发展,很多学 科都出现了信息爆炸的现象,研究人员需要面对越来越庞大的观测数据。因此,数据挖掘 技术受到大家的广泛关注。
数据挖掘(Data Mining,DM)一般是指从数据库的大量数据中,自动搜索隐藏于其中有 着特定价值和规律的信息的过程。此外,数据挖掘也是一种决策支持过程,基于人工智能、 机器学习、模式识别、统计学、可视化等技术,分析各种类型的数据,做出归纳性的推理, 从中挖掘出潜在模式,帮助各个领域的专家及研究人员做出正确的决策和判断
一般来说,样本之间的差异往往是由若干个关键的特征所引起的,如果能恰当的找出这些 重要特征,对建立合理的聚类或分类模型将起到积极的作用。这样不仅可以减少模型的建 立时间,提高模型预测的准确率,还能有效地提高数据挖掘算法的鲁棒性和适应性。因此, 我们希望可以针对数据的高维特征,对其各个特征的重要性进行加权,或者挑选出最重要 的特征子集,减少或消除冗余特征以及不相关特征的影响,最大限度地保留和利用原始数 据中的关键特征,在这个想法的基础上我们提出了子空间聚类。
新的问题和挑战
首先,数据的规模越来越大的,也就是所谓的大规模数据(Large-Scale Data)的问题 其次,数据的特征不断增加,导致数据维数的增加,出现了数据密度稀疏和“维数灾难”
等现象,导致出现如下的问题
1) 很难定义准确的距离度量函数。 2) 算法的空间复杂度和时间复杂度急剧上升。随着数据维数的渐增,导致各种数据挖掘算法的性
针对于这些问题,人们提出了大规模数据的数据流(Data Stream)分析方法;针对高维 数据的特征加权(Feature Weighting)和特征选择(Feature Selection)方法;同时,生 物信息学(Bioinformatics)等交叉学科也成为目前数据挖掘领域的研究重点
子空间聚类算法
子空间聚类算法是指把数据的原始特征空间分割为不同的特征子集,从不同的子空间角度 考察各个数据簇聚类划分的意义,同时在聚类过程中为每个数据簇寻找到相应的特征子空 间。
子空间聚类算法
子空间聚类算法实际上是将传统的特征选择技术和聚类算法进行结合,在对数据样本聚类 划分的过程中,得到各个数据簇对应的特征子集wk.baidu.com者特征权重。
特征空间中,各个样本点之间的距离几乎是相等的。
最后,数据挖掘越来越强调多学科的交叉,不仅需要灵活运用统计学、计算机、数学等建 模技术,还需要具有生物学、脑科学、证券金融等学科的知识背景
算法框架
CLIQUE 聚类算法包含下列步骤: 找出包含密集的子空间:对n维数据空间进行划分,划分为互不相交的矩
形单元,同时识别其中的密集单元。 识别聚类:可运用深度优先算法来发现空间中的聚类。 为每个簇生成最小化的描述:对于每个簇来说,它确定覆盖相连的密集单
元的最大区域,然后确定最小的覆盖区域。
根据目前的研究结果,子空间聚类可以分为硬子空间聚类和软子空间聚类两种形式。 更具体而言,根据搜索方式的不同,硬子空间聚类方法又可分为自底向上的子空间搜索算
法和自顶向下的子空间搜索算法两种;对于软子空间聚类方法而言,根据特征加权不确定 性表示方式的不同,可以分为模糊加权软子空间聚类和熵加权软子空间聚类两种
自底向上子空间聚类算法
自底向上子空间聚类算法一般是基于网格密度,采用自底向上搜索策略进行的子空间聚类 算法。它先将原始特征空间分成若干个网格,再以落到某网格中样本点的概率表示该子空 间的密度情况。对于密度超过一定阈值的子空间作为密集单元进行保留,而对非密集的子 空间进行舍弃。
经典的自底向上子空间聚类方法有最早的静态网格聚类算法CLIQUE、利用熵理论作为密 度度量的 ENCLUS 方法,以及后来提出的通过动态查找策略,得到更加稳定划分结果的 子空间聚类算法:MAFIA和 DOC等
CLIQUE算法采用了基于网格和密度的方法。首先对每个属性进行等分,整个数据空间就被 分成一个超长方体集合,对每个单元进行数据点计数,大于某个阈值的单元称这稠密单元, 然后对稠密单元进行连接就构成类。不同于其它方法,它可以自动地识别嵌入在数据子空 间中的类。
右图是识别子空间聚类的示意图在由年龄和 工资两维构成的原始空间中没有密集区域,但是在 其由工资一维构成的子空间中,存在两个密集区域 , 形 成 两 个 类 ( 1000≤ 工 资 ≤ 3000 和 5000≤ 工 资 ≤6000)而在由年龄一维构成的子空间中没有密集 区域,不形成任何聚类。
数据挖掘的主要过程包括数据准备、信息挖掘、结果表达和解释三个处理阶段 数据准备是指从相关的数据源中选取所需的数据样本,将其整合成用于数据分析的样本集; 信息挖掘是指利用各种数据挖掘算法将所得的样本集中包含的规律信息或潜在模式挖掘出
来; 结果表达和解释是指尽可能以用户可理解的方式将找出的规律或模式表示出来
Clique算法的优缺点
优点: CLIQUE可自动发现最高维的子空间,高密度聚类存在与这些子空间中。CLIQUE对元组的输 入顺序不敏感,无需假设任何规范的数据分布。它随输入数据的大小线性地扩展。当数据 维数增加时具有良好的可伸缩性。 缺点: 1、子空间剪枝:CLIQUE 算法应用了一种剪枝技术来减少密集单元候选集的数目,但可能 遗失一些密集。如果一个密集存在于k维空间中,那么它的所有子空间映射都是密集的。在 自底向上的算法中,为了发现一个k维的密集所有的子空间都应该被考虑,但如果这些子空 间在被剪掉的空间中,那么这个密集就永远不可能发现了。 2、由于算法中的很多步骤都大大简化,以及很多步骤用的是近似算法,所以聚类结果的精 确性可能会降低。
CLIQUE算法
在高维(多属性)空间中进行聚类,一般的聚类算法要求有一个降维的预处理过程,典型 的做法是:(1)由用户指定其中的若干重要属性,从而达到维度的降低;(2)通过属性 约简,将一些不重要的属性去掉,经常采用的方法有主成分分析法和粗糙集方法;(3) 将数据空间通过不同维度的线性组合变换到一个低维空间中,使得不同点间的间隔在两个 空间中近似相同。但是这些方法都存在一定的缺陷,对于前两种方法有丢失有趣的结构或 模式的可能。对于第三种方法因为进行了属性的组合,打乱了与原空间的对应关系,使得 产生的聚类结果很难解释。
研究背景和意义
在过去的几十年里,随着科学技术的进步,数据采集及存贮能力得到了快速发展,很多学 科都出现了信息爆炸的现象,研究人员需要面对越来越庞大的观测数据。因此,数据挖掘 技术受到大家的广泛关注。
数据挖掘(Data Mining,DM)一般是指从数据库的大量数据中,自动搜索隐藏于其中有 着特定价值和规律的信息的过程。此外,数据挖掘也是一种决策支持过程,基于人工智能、 机器学习、模式识别、统计学、可视化等技术,分析各种类型的数据,做出归纳性的推理, 从中挖掘出潜在模式,帮助各个领域的专家及研究人员做出正确的决策和判断
一般来说,样本之间的差异往往是由若干个关键的特征所引起的,如果能恰当的找出这些 重要特征,对建立合理的聚类或分类模型将起到积极的作用。这样不仅可以减少模型的建 立时间,提高模型预测的准确率,还能有效地提高数据挖掘算法的鲁棒性和适应性。因此, 我们希望可以针对数据的高维特征,对其各个特征的重要性进行加权,或者挑选出最重要 的特征子集,减少或消除冗余特征以及不相关特征的影响,最大限度地保留和利用原始数 据中的关键特征,在这个想法的基础上我们提出了子空间聚类。
新的问题和挑战
首先,数据的规模越来越大的,也就是所谓的大规模数据(Large-Scale Data)的问题 其次,数据的特征不断增加,导致数据维数的增加,出现了数据密度稀疏和“维数灾难”
等现象,导致出现如下的问题
1) 很难定义准确的距离度量函数。 2) 算法的空间复杂度和时间复杂度急剧上升。随着数据维数的渐增,导致各种数据挖掘算法的性
针对于这些问题,人们提出了大规模数据的数据流(Data Stream)分析方法;针对高维 数据的特征加权(Feature Weighting)和特征选择(Feature Selection)方法;同时,生 物信息学(Bioinformatics)等交叉学科也成为目前数据挖掘领域的研究重点
子空间聚类算法
子空间聚类算法是指把数据的原始特征空间分割为不同的特征子集,从不同的子空间角度 考察各个数据簇聚类划分的意义,同时在聚类过程中为每个数据簇寻找到相应的特征子空 间。
子空间聚类算法
子空间聚类算法实际上是将传统的特征选择技术和聚类算法进行结合,在对数据样本聚类 划分的过程中,得到各个数据簇对应的特征子集wk.baidu.com者特征权重。