子空间聚类改进算法研究综述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

②发现类 :子空间搜索的目的是发现 k维空间及其子空 间中的密集单元格 ,将这些密集单元格组成的集合记做 D, 类发现的目的就是要将 D 中互相连接的密集单元格聚集在 一起 ,形成 q个类 D1 , D2 , …, Dq。CL IQUE算法采用深度优 先搜索算法完成类发现 ,从 D中任选一个密集单元格作为当 前子空间 ,为它分配一个类 ID ,然后分别在不同的维上寻找 与当前子空间相邻的单元格 ,判断该单元格是否为密集的 , 如果是 ,则为它们分配同一个类 ID ,并将该密集单元格作为 当前子空间 ,重复以上过程 ;如果不是 ,则从 D中任选未访问 过的密集单元格 ,重复以上过程直到所有密集单元格都打上 类标签 ;
子空间聚类是针对大规模高维数据聚类的有效方法 。 近年来 ,国内外的研究大多集中在算法的创新与改进 ,提出 了众多的子空间聚类算法 ,很少有研究者对这些算法作细致 的比较和分析 。本文从最具代表性的 CL IQUE算法入手 ,以 对 CL IQUE算法局限性的改进为基础 ,将近年来提出的新的 子空间聚类算法进行了分类介绍和分析 。这些分析研究对
Summary of Subspace C luster ing A lgor ithm s Research Ba sed on CL IQUE
L I X ia1, 2 , XU Shu - wei2
(1. College of A rchitecture and U rban Planning, Tongji University, Shanghai 200092, China; 2. Computer Center, Henan University, Kaifeng Henan 475001, China)
定理 1和定理 2还可以描述为 :若一个 k维单元是密集 的 ,则其在 k - 1维空间上的投影也是密集的 ; 若给定的 k 1维单元是非密集的 ,则其在 k维空间上的投影必是不密集 的 。在高维空间子空间中进行聚类时 ,可以利用该性质进行 “剪枝 ”,其用法类似于发现关联规则的 Ap riori算法 。一个 类是指连接的密集单元的最大集合 。 2. 3 CL IQUE算法分析 2. 3. 1 CL IQUE算法概述
定理 1 如果 S是 k维空间的一个类中的数据点集合 ,那 么将 S映射到 k - 1维空间得到 S′,则 S′将是 k - 1维空间某 个类的子集 。
定理 2 如果 S是 k - 1 维空间的数据点集合 ,但 S不属 于任何类 ,那么如果将 S扩展到 k维空间得到 S′,则 S′也不 可能属于任何类 。
③描述类 :对每个类给出 DNF形式的最精简描述 。 2. 3. 2 CL IQUE算法的优点和局限性
在高维空间中 , CL IQUE算法能够有效地进行聚类 ,并且 能够发现嵌套在高维数据空间子空间中的聚类 ,所有搜索限 制在原始空间的子空间中 ,而不是引入新的维度 ,这有利于 产生可解释的聚类结果 ,对于大型数据库中的高维数据的聚 类非常有效 。它具有如下优点 : ①它随输入数据的大小线性 地扩展 ,当数据维数增加时具有良好的可伸缩性 ; ②对数据 输入顺序不敏感 ,且无需假设任何规范的数据分布 ; ③聚类 结果以简洁的 DNF范式表达 ,具有良好的可解释性 。
摘要 :高维数据聚类是聚类技术的难点和重点 ,子空间聚类是实现高维数据集聚类的有效途径 。CL IQUE算法是最早提出的 基于密度和网格的子空间聚类算法 ,自动子空间聚类算法的实用性和高效性 ,带来了子空间聚类算法的空前发展 。深入分 析 CL IQUE算法的优点和局限性 ;介绍了一些近几年提出的子空间聚类算法 ,并针对 CL IQUE算法的局限性作了改进 ,聚类 的效率和精确性得到了提高 ;最后对子空间聚类算法的发展趋势进行了讨论 。 关键词 :数据挖掘 ;聚类 ;高位数据集 ;子空间 中图分类号 : TP311 文献标识码 : A
今后进一步改进 CL IQUE算法以及提出新的子空间聚类算 法提供了依据和指导 。
2 子空间聚类算法 CL IQUE
2. 1 算法分析 对于高维空间 ,由于点在空间中的分布比较分散 ,不太
容易形成支持度较高的聚类 。所以考虑在某一个子空间中 执行聚类分析的任务 ,而那个子空间会成为要分析的对象 , 聚类也只能在从低维到高维的迭代过程中自动产生的 。为 了使计算点的密度的方法简单一些 ,将数据空间分割成网格 ( grid)状 (通常是将数据空间中的每一维划分成相同的区间 数来做到的 ,这就意味着每一个单元具有相同的“体积 ”,这 样单元中点密度的计算可以转换成简单的点计数 ) ,然后将 落到某个单元中点的个数当成这个单元的密度 ( density ) 。 这时可以指定一个密度阈值 ,当某个单元格中点的个数大于 该阈值时 ,就 说 这 个 单 元 格 ( unit) 是 密 集 的 。最 后 , 聚 类 ( cluster)也就定义为连通的密集单元格的集合 。 2. 2 基本原理
1 引言
所谓聚类 ,就是将一个数据集中的数据进行分组 ,使得 每一组内的数据尽可能相似而不同组内的数据尽可能不同 。 聚类分析是一项重要的研究课题 ,在数据挖掘 、模式识别 、统 计数据分析 、自然语言理解等领域都有广泛的应用前景 。聚 类分析同时也是一个具有很强挑战性的领域 ,它的一些潜在 应用对算法提出了特别的要求 [1 ] :可扩展性 、处理不同数据 类型的能力 、发现具有任意形状的聚类的能力 、输入参数对 领域知识的最小限度的依赖性 、能够处理异常数据的能力 、 数据输入顺序对聚类结果的不敏感性 、处理高维数据的能 力 、基于约束的聚类以及聚类结果的可解释性和可用性 。
子空间聚类的效率和质量在很大程度上取决于网格划 分的精度 ,网格划分得越精细 ,聚类效果越好 ,但同时算法的 效率也就越低 。因此 ,构造好的网格划分方法能够显著改进 聚类的效率和精度 。 3. 1. 1 MAF IA 算法的自适应网格技术
ABSTRACT: The clustering of high dimensional data is a key p roblem in clustering methods. Subspace clustering is an effective app roach to realize clustering in high dimensional data. A s a p ioneer density and grid based clustering al2 gorithm , CL IQUE algorithm has, w ith its p racticality and high efficiency, greatly facilitated the development of sub2 space clustering algorithm. ? This paper? analyzes in dep th the advantages and lim itations of CL IQUE algorithm and introduces several subspace clustering algorithm s? put forward in recent years which have all been? updated to? ad2 dress the lim itations of CL IQUE algorithm and therefore imp roved the efficiency and accuracy for clustering. ? In ad2 dition, this paper also discusses the development trend of subspace clustering algorithm. KEYW O RD S: Data m ining; Clustering; H igh dimensional datasets; Subspace
3 改进的子空间聚类算法
近几年的一些新的研究都着眼于对以前算法的进一步 改进和寻找新的聚类途径 ,但是没有一种算法能满足所有的 标准 ,因此 ,对数据聚类的进一步改进和创新算法仍然任重 道远 。本文介绍一些针对以上提出的 CL IQUE算法的局限 性进行改进的新算法 。 3. 1 基于网格划分的改进
SCAN[4 ]等 。由于高维数据的稀疏性 、空空间现象以及维度 效应的影响 ,在高维数据空间中使用传统算法会遇到以下问 题 : ①随着维数增长 ,聚类的时间和空间复杂度迅速上升从 而导致算法的性能下降 ; ②高维数据集中存在大量无关的属 性 ,并且在这些不相关的维上十分稀疏 ,这就使得在所有维 中存在簇的可能性几乎为零 ,所以传统的聚类算法不适合对 高维数据进行聚类 ; ③距离函数难于定义 ,聚类操作的基础 是数据对象之间相似性的度量 ,相似度高的对象归为一类 。 但在高维情况下距离函数失效 ,因此必须通过重新定义合适 的距离函数或相似性度量函数以避开“维度效应 ”的影响 。
但是 CL IQUE不能自动去除孤立点 ,并且由于方法大大 简化 ,它也存在着很多的局限性 ,主要是以下几个方面 : ① CL IQUE算法采用固定划分网格的方法 ,这一方面很容易破 坏密集区域的边缘 ,降低最终结果的准确性 ,另一方面会导 致可能有某一聚类被人为地分割成多个区域 ,而在覆盖相连 的密集单元时又将其相连 。使得划分单元的数目增加 ,在高 维情况下 ,相邻单元的数量以指数级增长 ,降低了聚类算法 的效率 ; ②CL IQUE算法利用最小描述长度技术来进行剪枝 , 以减少候选密集单元的数目 。但是 ,利用这种技术可能会剪 掉一些密集单元 ,对最终的聚类结果造成影响 ; ③算法中很 多步骤都大大简化 ,以及很多步骤用的是近似算法 ,因此聚 类结果的精确性可能会降低 。
第 27卷 第 5期 文章编号 : 1006 - 9348 ( 2010) 05 - 0174 - 04
计 算 机 仿 真
ቤተ መጻሕፍቲ ባይዱ子空间聚类改进算法研究综述
2010年 5月
李 霞 1, 2 ,徐树维 2
(1. 同济大学建筑与城市规划学院 ,上海 200092; 2. 河南大学计算中心 ,河南 开封 475001)
迄今为止 ,仅仅数据库界的研究人员就已经提出了不少 数据聚类算法 , 比较著名的有 CLARANS[2 ] 、B IRCH[3 ] 、DB2
基金项目 :河南省教育厅自然科学研究计划项目 (2009B50004) 收稿日期 : 2009 - 03 - 21 修回日期 : 2009 - 04 - 29
— 174 —
CL IQUE (Clustering In Quest) [5 ]是 IBM 的 A lmaden研究 中心数据挖掘课题的研究成果 ,是最早的子空间聚类算法 。 CL IQUE算法采用了基于网格和密度的方法 , 能够发现最高 维空间及其子空间存在的类 。该算法分为 3个步骤 :
①子空间搜索 : CL IQUE算法采用自底向上法 ,首先扫描 数据库 ,找出 1维空间中的密集单位格 ,然后根据 ( k - 1 )维 的密集单位格生成 k维空间密集单位格的候选集 ,该候选集 是 k维空间密集单位格集合的超集 ,有关候选集的生成方式 详情见文献 [ 6 ]。得到 k维密集单元格的候选集 Ck 后 ,逐个 查看 Ck 中的密集单元格在 ( k - 1 )维上的映射是否包含于 Ck - 1 ,对于那些在 ( k - 1)维上的映射不被 Ck - 1包含的密集单 元格 ,根据定理 1从 Ck 中删除以减少下一轮生成候选集的 计算量 。同 时 CL IQUE 采 取 基 于 MDL (m inimal descrip tion length)的剪枝策略删除某些“兴趣度不大 ”的子空间 ,该方法 能够提高算法效率 ;
相关文档
最新文档