基于网格的聚类方法研究

合集下载

基于网格梯度的多密度聚类算法

基于网格梯度的多密度聚类算法
数据集进行聚类 , 它的缺点 是不能 有效地分 离 出多个类 ;N SN
算法采用 了一种共 享近邻 的思想来 定义 相似度 ( 于数据集 对 中每个点 , 找出距 离其最近 的 个邻 近点 , 形成一个集合 , 然后 考虑数据集 中的任 意两个点的 k个邻近点集合交集部分 的点
学习等 。聚类分析是数据挖掘 中一种非常重要的技术 和方法 , 是 自发、 无监督 的学 习过程 。通过聚类能够识别对象空 间中稠
第应 用 研 究
Ap l ain Ree rh o o ues pi t sac fC mp tr c o
Vo . 5 No 1 12 . 1 NO . 2 o V 08
基 于 网格梯 度 的 多密度 聚 类算 法 水
Ab ta t sr c :At r s n ,mo tcu t r g ag r h e oe t n h r i ay s a e a d df r n i l s r ,b t t sd m. ee t p s l se i lo t ms d v t o f d te a b t r h p n i e e ts e c u t s u i n i i r z e ii c l t e i h l — e st aa s t f cie y h s p p rp o o e h lo t m ih u e h d b s d c a a t r u t o d a w t t e mu t d n i d t e f t l .T i a e r p s d te ag r h whc s d t e l h i y ee v i — a e h r ce o a i i .F rt .i w p d o e n ieu i g t eGa s in s oh n t e u d te cu t r ih h d i l — e st aa fr pd t y is y t l e f t os sn u sa mo ti g, h n f n h lse c i mu t d n i d t i h h o wh n i y

一种基于网格的K-Means聚类算法

一种基于网格的K-Means聚类算法

0 引 言
聚类 是 数 据 挖 掘 中 的一 项 重要 技术 , 的 目标 是 将 数 它
S 1,i X[2 h ] 一[1h ] 1,2 X… ×[ ,n 就是 n 数 据 空 间 。 1 h] d 维
定 义 1 将 每 一 维 分 成 k个 不 相 交 的 区 间 段 , 个 区 : 每 间都 是 左 闭右 开 的等 长 的 区 间 , 样将 数 据 空 间分 割 成 一 这
从 而形 成 2 个 单 元 , 些 单 元 称 为 网格 的 子单 元 。 n 这
定 义 3 网 格 单元 的相 邻 单 元 是 指 与 所 给 单 元 有 共 同 : 边 界或 有 共 同点 的那 些 单 元 。 定 义 4 如 果 一个 网格 单 元 中 数 据 点 的个 数 大 于 给 定 :
3 郑 州成 功 财 经 学 院 信 工 系 , 南 巩 义 4 1 0 ) . 河 5 2 0
摘 要 : — as算法是聚 类方 法中常用的一种 划分方 法。随着数据 量的增加 , — as算 法的局 限性 日益 突出。 K Men K Men
基 于 网格 划 分 的 思 想 , 出 了一种 基 于 网格 的 K— a s 类 算 法 , 算 法 使 用 了 网格 技 术 在 一 定 程 度 上 去 除 了孤 立 提 Men 聚 该 点和 噪 声数 据 , 少 了原 始 K Men 算 法 将 大 的 聚 类 分 开 的 可 能 。 实 验 表 明 , 算 法能 处 理 任 意 形 状 和 大 小 的 聚 类 , 减 — as 该 对孤 立 点 和噪 声数 据 也 能很 好 地 识 别 , 并且 在 去 除孤 立 点和 噪 声数 据 方 面 可 以达 到 较 好 的精 度 。
的 密度 值 Mi t 时 , n s 我们 称 该 单 元 为 高 密 度 单 元 ; 之 称 P 反

一种基于密度的网格动态聚类算法的研究

一种基于密度的网格动态聚类算法的研究
或 高维 数据 的聚类 问题 .
1 相 关 研 究
基 于 网格 的聚类算 法 由于易 于增 量实 现 和高维 数据 挖掘 而被 广泛 应用 于聚 类算 法 当中 , 今 为止 , 迄 已经 有很 多人 提 出 了基 于 密度 和 网格 的聚 类算 法 , D S A C R C IU 如 B C N、U E、LQ E等 算法 . C IU LQ E是 一种基 于 网格 和密 度 的聚类算 法 , 它是 一种 更广 泛 的子空 间 聚类 方 法 , 以通过 任 意 组 可 合来 产生 子空 间 , 将数 据投 影 到子空 间 中进行 聚 类 , 有 网格 类 算法 效 率 高 的优 点 , 且 可 以处 理 高 再 具 并 维 的数据 . 是在划 分 网格 时没有 考 虑数据 的分 布 , 而 导致 了聚类 质 量 的降低 . 但 从 ID A是一 种 基于 密度 的增 量 式 网格 聚类 算法 , 算法 通过 将 数据 空 间划 分成 体积 相等 的若 干 单 G C 该 元 , 而 有效 地 提高 了聚类 的效率 , 从 减低 了聚类 时 间 和 IO 开销 . 由于 它是 基 于 D C C N 的一 种算 / 但 B SA 法 的改进 , 可避免 具有 了 D S A 聚类算 法 的缺点 . 不 BCN
Vo| 1 No 1 l3 .
第3 卷 第 1 1 期

种基于密度的 网格动态聚类算法的研 究
焦 誉 赖建章 柯 , , 佳
205 ; 30 9 (. 1安徽行政学 院 信息管理 系 , 安徽 合肥
2 合肥工业大学 管理学院Байду номын сангаас, . 安徽 合 肥 2 00 ;. 3 0 9 3 安徽 中医学 院 计算机 系, 安徽 合肥 2 0 3 ) 30 7

基于地理的聚类方法

基于地理的聚类方法

基于地理的聚类方法随着信息技术的快速发展,地理信息系统(GIS)在各个领域扮演着越来越重要的角色。

其中,聚类分析是GIS中地理空间数据分析的重要方法之一。

它通过对数据点的相似性进行度量,将属于同一类别的数据点聚集在一起,从而发现地理空间中的规律和关系。

在本文中,我们将着重介绍基于地理的聚类方法。

1.基于密度的聚类密度聚类方法是基于数据点密度的分析方法。

其基本思想是将数据点分布空间中的高密度区域看成一类,而低密度区域则看成另一类。

常见的密度聚类算法有DBSCAN(密度聚类的基础算法)、OPTICS 等算法。

在地理信息领域,该方法可用于提取地形形态、城市几何形态、森林覆盖度等信息。

2.基于网格的聚类网格聚类将地理信息空间分割为一个个网格,并测试每个网格的内容。

网格中心是被聚类的对象,其属性值将被作为网格的模式。

网格聚类的优点是聚类结果具有空间属性和易于解释性。

网格聚类的应用领域包括城市规划、环境管理和森林覆盖等。

3.基于层次聚类层次聚类将数据点看成一棵树,从下到上逐渐合并成一团。

该方法通过不同阈值的设定,把这棵树的分枝划分成不同的类别。

在地理信息领域,该方法可用于划分地形形态、水文地貌等信息。

4.基于特征聚类特征聚类将地理信息中的特征看成一类,通过这些特征的共同性,将这些特征聚类在一起。

特征聚类应用广泛,例如在植被分类、河流图像分割和地形分类等领域。

总结基于地理的聚类方法可以分为四种:基于密度的聚类、基于网格的聚类、基于层次聚类和基于特征聚类。

不同的聚类方法适用于不同的数据类型,所以聚类方法的选择也很关键。

在GIS空间数据分析过程中,通过探索不同聚类方法的优缺点,可以深入理解数据本身,并发现其中具有潜在规律和联系的地理现象,为决策提供有效的支持。

基于密度的聚类和基于网格的两大聚类算法

基于密度的聚类和基于网格的两大聚类算法
即不在结果队列中)放人有序种子队列: Step 3:如果有序种子队列为空,返回Step 2,否则选择种子队列中的
第一个对象P进行扩张: Step 3.1:如果P不是核心节点.转Step 4;否则,对P 的E邻域内任一
未扩张的邻居q 进行如下处理 :如果q已在有序种子队列中且从P到 q的可达距离小于旧值,则更新q的
基于网格(dding-based)指将对象空间量化为有 限数目的单元,形成一个网格结构,所有聚类都 在这个网格结构上进行。
20
基于网格的聚类
基本思想是将每个属性的可能值分割成许多相邻 的区间,创建网格单元的集合(对于的讨论我们 假设属性值是序数的、区间的或者连续的)。
每个对象落入一个网格单元,网格单元对应的属 性区间包含该对象的值。
据点在邻域内的影响,被称为影响函数。 数据空间的整体密度(全局密度函数)可以被模拟为所有数据点的影响函数
的 总和; 聚类可以通过确定密度吸引点(density attractor)来得到,这里的密度吸引点
是全局密度函数的局部最大值。 一个点 x 是被一个密度吸引点 x*密度吸引的,如果存在一组点 x0,x1,
高层单元的统计参数可以很容易Fra bibliotek从低层单元的参数计算得到。
28
STING:统计信息网格
统计处理思想: 使用自顶向下的方法回答空间数据的查询
从一个预先选择的层次开始-通常包含少量的单 元,为当前层的每个单元计算置信区间 不相关的单元不再考虑 当检查完当前层,接着检查下一个低层次 重复这个过程直到达到底层
(1)对数据点占据的空间推导密度函数; (2)通过沿密度增长最大的方向(即梯度方向)移动,识别密度函数的局
部最大点(这是局部吸引点),将每个点关联到一个密度吸引点; (3)定义与特定的密度吸引点相关联的点构成的簇; (4)丢弃与非平凡密度吸引点相关联的簇(密度吸引点 x’称为非平凡密

基于网格的数据流聚类算法

基于网格的数据流聚类算法
而且 , 维 护 的 是 mi ocutr的 聚 类 特 征 向量 ( F x 它 c- lse r C 2; C ; F tC ; ) 这在 噪声 情况下 , F x C 2; F t n , 会产生 干扰误差 。
种一次性扫描 的方法 和算法 , 如文[-4等等 , 1 - 1 但它们 的聚类 结果通 常是球形 的, 不能支持对任意形状类的聚类[ 。 5 ]
Gr d b s d Da a S r a u t rng Al o ih i - a e t t e m Cl se i g r t m LI QigB o DAI a F n DENG u Z U n — a o a Ch - S HANG e- ig W i n M
称为 p rmi t r e的结 构储存 下 来 。同时 , ya d i f me a m 使用 另一 个离线的 mar c se 过程 , 据用户 的具 体要求 对 m co co l tr - u 根 i r- c se 聚类 的结果 进行 再分析 。但 它采用 距 离作 为度 量参 l tr u 数, 聚类结果通 常是球 形 的, 不能 支持对 任意形状 类 的聚类 。
( le eo n om ain S se a d M a a e n ,N ain lUnv r i fDee eTe h oo y, a g h 1 0 3 Colg fI f r to y tm n n g me t to a iest o fns c n lg Ch n s a4 0 7 ) y
噪 声干扰 下发现任 意形状 的类, 而且有效地解决 了聚类算 法参数敏感和聚 类结果无法区分密度差异等 问题。
关键词
Ab ta t W i to g a i t rd s o e i g a b t a y s a e cu t r n a d i g n i e g i— a e a as r a cu t — sr c t s r n b l y f ic v rn r ir r h p l s e sa d h n l o s , rd b s d d t t e m l s e h i o n r g ag rt m f ce ty r s l e h s r b e o en e y s n ii e t h s r d f e a a e e s a d d fiu t t i lo ih ef in l e o v st e e p o lm fb i g v r e st o t e u e - e i d p r m t r n i c l o n i v n f d s ig ih t e d n iy d s i c in o l s e s it u s h e st it to f u t r . n n c Ke wo d Cl s e i g,Da a s r a ,Cl s e i a a t r y rs u t rn t te m u t rn p r me e ,Re ai e d n i g ltv e st y

基于网格和密度的数据流聚类算法

基于网格和密度的数据流聚类算法
i u e t e mi i t s h n mum pa n n r e c lt rn g rt m o g tt e cuse n e u t ,i r v d t e cu trn fe t s n i g te h se i g Alo h t e h l tr g r s ls mp o e h l se g afc . i i i Ke r y wo ds: a a sr a ; l se n d t te m cu tr g;s b rd i u g i
whc o i e h p r a h b s d o e st n r .B a so e mo e o o b e—l y rc n t cin,t e ih c mb n d te a p o c a e n d n i a d g d y i y me n ft d l f u l h d a e o s u t r o h
A b t a t Ac o d n o t e c a a trsiso h aa sr a , i p r p e e td a n w l se n lo t m s r c : c r i g t h h r ce it ft e d t te m h spa e r s n e e c u tr g a g r h GTCS c i i
数据流的挖掘要在有限的内存 中完成对数据的及时处理. 通过单次扫描机制 , 在内存中保存数据流的概要信
息 ,以支持后 续 的计 算 , 成挖掘 结果 的近似性 . 形 数据 流是一 个连续 、 在线 的过程 , 传统 的聚类 算法 无法 在数 据 流 中直接 应用 , 因此数 据流 的聚类对 数 据挖 掘 领域 提 出了前 所 未 有 的新 挑 战 , 也成 为许 多学 者 研究 的热

基于动态网格的数据流聚类分析

基于动态网格的数据流聚类分析

V0 . 5 No 1 12 . 1 NO . 2 0 V 0 8
基 于 动 态 网格 的数 据 流 聚 类分 析


勇, 刘青宝
( 国防科 学技 术 大 学 信 息 系统 与 管理 学院 , 沙 40 7 ) 长 103 要 :提 出的增 量式数 据流 聚类 算 法 D C S结合 网格 和 密度技 术 , GD 能够得 到任 意形状 的聚 类 , 通过 改进 网格
密度的计算方式, 解决了现有网格算法中丢失数据空间影响信息的问题 , 并且实现了关键参数的 自适应设置, 减 小 了 工参数对聚类结果的影响。 人 关键词 :动态网格 ;网格密度 ; 数据流聚类; 聚类参数
中图分 类号 :T 3 1 P9 文献标 志码 :A 文 章编 号 :10 —6 5 20 ) 138.4 0 139 (0 8 1-2 10
提出的增量式数据流聚类算法dgcds结合网格和密度技术能够得到任意形状的聚类通过改进网格密度的计算方式解决了现有网格算法中丢失数据空间影响信息的问题并且实现了关键参数的自适应设置减小了人工参数对聚类结果的影响
第 2 第 1 期 5卷 1
20 0 8年 1 1月
计 算 机 应 用 研 究
Ap l ain Ree rh o mp tr p i t sac fCo ues c o
Dy a c g i — a e l se i g o e aa sra n mi rd b s d cu trn v rd t t m e
HEY n , igbo o g HU Qn —a
( o eefI o a o y e &M n gm n , a o l n e i D e eT hooy C agh 10 3 C i ) Clg n r t n sm l o fm i S t a a e et N t n i rt o e n e nl , h nsa 0 7 , h a i a U v sy f fs c g 4 n

基于密度的聚类和基于网格的两大聚类算法

基于密度的聚类和基于网格的两大聚类算法
DBSCAN:基于高密度连通区域聚类 OPTICS:通过点排序识别聚类结构
DENCLUE:基于密度分布函数的聚类
2
DBSCAN

基于密度的簇是密度相连的点的集合 主要思想
寻找被低密度区域分离的高密度区域 只要临近区域的密度(单位大小上对象或数据点的数
目)超过某个阈值,就继续聚类

13
OPTICS:通过点排序识别聚类结构

数据集的排序可以用图形描述,有助于可视化和理解数据集 中聚类结构,例如下图是一个简单的二维数据集的可达图。 其中三个高斯“凸起”反映数据集中比较稠密的部分。
14
OPTICS:通过点排序识别聚类结构

Step 1:有序种子队列初始为空.结果队列初始为空 ; Step 2:如果所有点处理完毕.算法结束;否则选择一个未处理对象( 即不在结果队列中)放人有序种子队列: Step 3:如果有序种子队列为空,返回Step 2,否则选择种子队列中的 第一个对象P进行扩张: Step 3.1:如果P不是核心节点.转Step 4;否则,对P 的E邻域内任一 未扩张的邻居q 进行如下处理 Step 3.1.1:如果q已在有序种子队列中且从P到 q的可达距离小于旧值 ,则更新q的可达距离,并调整q到相应位置以保证队列的有序性; Step 3.1.2:如果q不在有序种f队列中,则根据P 到q的可达距离将其插 入有序队列; Step 4:从有序种子队列中删除P.并将P写入结果队列中,返回Step 3
Step4 否则(即p为核心对象),给 Neps(p)中的所有对象打上一个新的类标签 newid,然后将这些对象压入堆栈的Seeds中; Step5 让CurrentObject = Seeds.top;然后检索属于Neps(CurrentObject) 的 所有对象;如果| Neps(CurrentObject) |>MinPts,则剔除已经打上标记的 对象,将余下的未分类对象打上类标签newid,然后压入堆栈; Step6 Seeds.pop,判断Seeds是否为空,是,则执行Step1 ,否则执行Step5。

基于网格和密度的随机样例的聚类算法

基于网格和密度的随机样例的聚类算法
S h — i HAO Z e g,W AN Ho g me UN Z i we ,Z hn G n — i
( col f l t ncIfr ao nier g Taj n esy Taj 0 02, hn ) Sh o o e r i nom tnE gnei , i i U i r t, in n30 7 C i E co i n nn v i i a
维普资讯
第 3 卷 第 5期 9 20 0 6年 5月


大 学


V 1 3 No 5 o. 9 . Ma 0 6 v2 0
Ju n l f ini nvri o r a aj U iesy oT n t
基 于 网格 和 密 度 的 随机样 例 的聚 类算 法
Absr c : To i r v fiin y o e st— a e lse n loih sa d d a t h o sr iso o —p — ta t mp o eefce c fd n i b s d cu t r g ag rtm n e l h te c n tan fn n s a y i wi tm trb t s o e p ta l se n g rt m ald GDRS i p o o e . I i a e n gi n e st ih i at ue ,an v ls ailcu tr ga o h c e i i l i l s rp s d t sb s d o rd a d d n i w t y
的参考点; 然后随机选择没有分类的参考点, 并测试其邻域的稀疏状况、 与其他聚类的关系以及非空间属性的约束 来决定加入、 合并聚类或形成新的聚类; 最后把参考点映射回数据. 把此算法和 D S A B C N及 D R 算法进行了理论 BS

多维数据的分组和聚类分析方法及应用研究

多维数据的分组和聚类分析方法及应用研究

多维数据的分组和聚类分析方法及应用研究随着数据产生和积累的飞速增长,多维数据的分组和聚类分析变得日益重要。

这些分析方法帮助人们理解和发现数据背后的模式和关系,从而为决策提供基础和洞察力。

本文将介绍多维数据的分组和聚类分析的常见方法,并探讨它们在不同领域的应用研究。

1. 多维数据分组分析方法多维数据分组分析的目标是将数据集划分为不同的组,使得每个组内的成员具有相似的特征。

以下是几种常见的多维数据分组分析方法:1.1. K-means聚类K-means聚类是一种基于距离的分组方法,将数据集划分为K个类别,使得每个数据点与其所属类别的质心之间的距离最小化。

该方法适用于连续变量和欧几里得距离度量的数据集。

K-means聚类具有简单、高效的优点,但对初始聚类中心的选择敏感。

1.2. 层次聚类层次聚类是一种自底向上或自顶向下的分组方法,通过计算样本间的距离或相似度来确定聚类结构。

该方法生成一个树形结构,可视化地表示不同类别之间的关系。

层次聚类不需要预先指定类别数量,但对于大规模数据集计算复杂度较高。

1.3. 密度聚类密度聚类方法基于数据点周围的密度来划分组,将样本点密度较高的区域作为一个组,较低的区域作为另一个组。

该方法可以识别复杂的聚类形状和噪声数据,适用于非凸数据集。

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种常见的密度聚类方法。

2. 聚类分析方法聚类分析的目标是将数据集划分为若干个不相交的子集,每个子集中的数据点在某种意义上具有相似性。

以下是几种常见的聚类分析方法:2.1. 分层聚类分层聚类是一种基于相似性度量的聚类方法,将数据集划分为多个子集,类别数量从1逐渐增加到N。

该方法可通过树状图表示不同层级之间的相似性关系。

分层聚类的优点是不需要预先指定聚类数量,但对于大规模数据集计算复杂度较高。

2.2. 期望最大化(EM)算法EM算法是一种基于概率模型的聚类方法,通过迭代生成最大似然估计的方法来拟合数据分布。

一种基于密度树的网格快速聚类算法的研究

一种基于密度树的网格快速聚类算法的研究

中 图分类号: P 1 T 1 3
种 基 于密度树 的 网格 快速 聚类算法的研 究
赖建 章 ,倪志伟 ,刘志伟
( 合肥 工业 大 学管 理 学 院 , 合肥 2 0 0 ) 30 9

要 :聚类算法足数据 挖掘领域r一个1常重要的研究方 。人们已经提 出了许多适 用于大规模 的、高维的数据库的聚类算法 基于密 { J F
[ src ] lseigag rh ia eyi otn rsac i cini dt nn . tfrlto ls r ga oi ms dpe elresae Abta tCu t n loi m r r t sv mp r teerhdr t aa a e o n miig S)a,os f ut i l rh atdt t g — l c en g t a Oh a c
[ yw rs ls r g D ni : i; e s yt e Ke o d ICut i ; e sy Gr D ni —r en t d t e
近 l 0多年来 ,数据挖掘逐渐成为数据库研究领 域的一 个热点…,而数据挖掘这 个领域技术 已经渗透 了我们 日常 生
DB S A C C N的一种算法 的改进 , 不可避 免具有 了 DB C N聚 SA
A i s u t rn g r t m s d o n iy e Gr d Fa t Cl s e i g Al o ih Ba e n De st -r e
LAI in h n . i iLI Zhwe a z a g NIZhwe. U i i J
f h o f a a e n, fi iest f c n lg ,Hee 3 0 9) Sc o lo n g me tHee M Unv r i o h oo y y Te fi 0 0 2

基于网格和最近邻居的聚类算法

基于网格和最近邻居的聚类算法
相 邻的 密度相 差 不大 的簇 的问题 , 出 1种 新 的基 于严 格 最 近 邻居 和 共 享 最近 邻 居 的 聚类 算 法. 提 通过 构造 共 享严格 最近 邻 图 , 样 本点在 密度一致 的 区域保持 连接 , 使 而在 密度 不 同的相 邻 区域 断 开
连接 , 并尽 可能去 除噪 声点和孤 立 点.该 算法 可以 处理 包含 有 不 同密度 的簇 数 据 , 而且 在 处理 高 维 数 据 时具有较 低 的时 间复杂度 、实验 结果证 明 , 该算 法能有 效找 出不 同大小 、 状和 密度 的聚类. 形 关键 词 : 类算 法 ;相似 度 ;密度 ;网格 ; 近邻居 聚 最 中图分 类号 : P0 . T S 16 文献 标志码 :A
cut n a st w i oti c s r wt iee t e si rdsnusi daet ls r wt ls r gdt es hc cnan l t s i df rn dn ie o iig i n ajcn ut s i e i a h u e h f ts t hg c e h
n ih o r p e g b rg a h.I o e s s d ts t o ti i g cu t r t i e e td n i e n a o tme c m- tprc se aa es c na n n lse s wi df r n e st s a d h s lw i o h f i p e i l e i g wih h g i n in a a l xt whi d a n t ih d me so a d t .Th x e me tr s lsp o e t a h g rt m a f - y e l l e e p r n e u t r v h tt e a o ih c n ef i l i c e ty fn lse s wih dfe n h p s ie n e i e . in l d cu t r t i r g s a e ,sz sa d d nst s i fi i Ke r s:c u trng ag rt m ;smi rt y wo d l se i l o h i i li y;d n iy;g i a e st rd;n a e tn ih o e r s eg b r

基于网格筛选的大规模密度峰值聚类算法

基于网格筛选的大规模密度峰值聚类算法

基于网格筛选的大规模密度峰值聚类算法徐晓;丁世飞;孙统风;廖红梅【摘要】密度峰值聚类算法(density peaks clustering algorithm,DPC)是2014年提出的一种新型聚类分析算法,它基于聚类中心局部密度大以及与密度更大点之间的距离较远两大特点绘制决策图寻找聚类中心,从而得到任意形状的簇.但在寻找聚类中心的过程中,求解局部密度以及高密度距离属性都依赖于相似度矩阵的计算,计算复杂度较高,限制了密度峰值聚类算法在大规模数据集中的应用.针对此不足,提出基于网格筛选的密度峰值聚类算法(density peaks clustering algorithm based on grid screening,SDPC),根据数据的不均匀分布,使用网格化方法去除部分密度稀疏的点,然后再使用密度峰值聚类算法中决策图的方法选取聚类中心,可以在保证聚类准确性的基础上有效降低计算复杂度.理论分析和实验测试表明:基于网格筛选的密度峰值聚类算法不仅可以对大规模数据集进行正确的聚类,还极大地降低了计算复杂度.【期刊名称】《计算机研究与发展》【年(卷),期】2018(055)011【总页数】11页(P2419-2429)【关键词】密度峰值聚类算法;网格筛选;决策图;计算复杂度;大规模数据集【作者】徐晓;丁世飞;孙统风;廖红梅【作者单位】中国矿业大学计算机科学与技术学院江苏徐州 221116;中国矿业大学计算机科学与技术学院江苏徐州 221116;中国矿业大学计算机科学与技术学院江苏徐州 221116;中国矿业大学计算机科学与技术学院江苏徐州 221116【正文语种】中文【中图分类】TP391信息技术的飞速发展以及互联网的普及,使得数据更新速度快、数据源多样、数据量以空前的速度增长.面对大规模数据存储难、计算复杂度高等一系列的问题,如何对大规模数据集进行有效的数据挖掘、快速获取有价值的信息,已经成为人们研究的焦点[1].聚类学习是一种重要的数据分析技术,能从复杂的数据中发现有用的信息[2-3].可以先对数据进行聚类,根据数据对象的相关特征,将相似的对象归到同一类中,而差别较大的对象划分到不同类中,找到数据之间的内在联系,为决策提供支持.聚类分析在市场分析、模式识别、基因研究、图像处理等领域具有一定的应用价值[4].2014年Rodríguez和Laio[5]提出了一种新的密度峰值聚类算法(density peaks clustering algorithm, DPC).聚类中心具有2大特点:1)聚类中心本身的密度较大,即被密度均不超过它的邻居包围;2)聚类中心与其他密度更大的数据点之间的“距离”相对更大.DPC利用上述2大特点绘制决策图,找到聚类中心,然后对剩余的点进行高效分配[6].由于聚类中心是密度和距离2个属性值均较大的点,所以称之为密度峰值,该算法称为密度峰值聚类算法.密度峰值聚类算法可以用于不同形状数据的聚类分析,不需要预先设定类簇数,通过决策图快速发现密度峰值,得到比较满意的聚类结果.尽管密度峰值聚类算法在规模较小的数据集上表现很好,但是它依旧存在多方面不足:1)在计算局部密度时没有采用统一的密度度量标准,参数dc的选取对聚类结果影响较大.2)如果数据点的个数n很大,密度峰值聚类算法将会把所有点都作为选取聚类中心的候选数据点.计算n个点的局部密度和距离属性都依赖于点与点之间的相似度矩阵,需要的时间复杂度为O(n2),时间开销会严重降低聚类的处理效率.同时,存储相似度矩阵需要的空间复杂度也是O(n2),因此,对于密度峰值聚类算法而言,可供使用的内存空间将是其处理数据规模的上限.对于通常的计算设备来说,内存空间毕竟有限,这将使得密度峰值聚类算法失去处理较大规模数据的能力.当前,在密度峰值聚类算法研究领域,针对第1个弊端的研究居多.Du等人[7]提出DPC-KNN聚类算法,其将KNN的概念引入到密度峰值聚类算法中,dc的选取不局限于局部,使局部密度的计算有另一选择.Xie等人[8]利用样本点的KNN信息定义样本局部密度,搜索和发现样本的密度峰值,以峰值点作为初始类簇中心来改进密度峰值聚类算法.Zhou等人[9]提出一种名为3DC的聚类算法,是密度峰值聚类算法的改进版本.3DC算法由分治策略和DBSCAN框架中密度可达性概念驱动,考虑数据的全局分布,递归地找到正确的簇数.但是对于第2个弊端的研究甚少.仅在2015年巩树凤和张岩峰[10]提出一种高效的分布式密度中心聚类算法(EDDPC),它利用Voronoi分割与合理的数据复制及过滤,避免了大量无用的距离计算开销和数据传输开销.Zhang等人[11]提出一种在MapReduce上聚类大数据集的高效分布式密度峰值聚类算法,利用局部敏感Hash进行分区数据的近似算法,执行本地计算,并聚合局部结果近似最终结果.然而,采用分布式虽然在一定程度上解决了大规模高维数据的计算复杂度问题,但在每次迭代过程中,节点间传送大量的数据带来巨大的通信代价,其远远大于计算代价,总体效率较低[12].同时,分布式计算涉及多台计算机,而且都依赖网络通信,因此1台或者多台计算机,1条或者多条网络出现故障都将影响分布式系统,而且一旦出现问题不易排除[13-14].对于大规模数据的处理任务,抽样的策略是通常的选择,然而随机抽样往往会产生糟糕的聚类结果,同时抽样的规模多大才能覆盖原数据集的所有自然簇等问题难以解决[15].SVM通过挑选位于分类超平面附近的训练样本作为最终的训练集,从而在确保分类器准确率的情况下实现训练过程加速,本文受此启发[16],设计一种新颖的基于网格筛选的方法.先利用网格化方法筛选去除密度稀疏的点,然后计算剩余点的局部密度和距离属性寻找聚类中心.由于密度稀疏与聚类中心局部密度大的特点违背,去除的点一定不会是聚类中心,不会影响聚类中心的选取.然后在筛选后的数据集上绘制决策图选取聚类中心,有效降低聚类的计算复杂度.基于此,提出一种基于网格筛选的密度峰值聚类算法(density peaks clustering algorithm based on grid screening, SDPC),并从理论上证明该算法可以有效提高密度峰值聚类算法的运行效率,获得令人满意的聚类结果.1 密度峰值聚类算法原理密度峰值聚类算法是一种新提出的聚类算法,该算法可以创建任意形状的集群,而不考虑它们被嵌入的空间维度并且有效地排除异常值,应用前景广泛[17-18].算法中心思想基于这样一个假设:对于一个数据集,聚类中心被一些低局部密度的数据点包围,而且这些低局部密度的点距离其他高密度的点的距离都比较大.算法首先对每一个数据点i赋予2个属性:点的局部密度ρi和该点到具有更高局部密度的点的距离δi,局部密度ρi定义为(1)其中,di j表示数据点xi和xj的距离.dc表示截断距离,是密度峰值聚类算法的唯一输入参数,在作者的代码中定义为dc=dNd×2%,(2)其中Nd属于每2个点之间的所有距离的集合,其以升序排序.因此,ρi等于与点i 的距离小于dc的点的个数,其也被定义为所呈现的代码中的高斯核函数:(3)数据点i的δi是点到任何比其密度大的点的距离的最小值,即:(4)对于密度最大的点,我们可以得到:(5)DPC算法选择ρi和δi均大的值作为聚类中心.例如图1(a)表示嵌入二维空间中的28个数据的分布,数据点按照密度递减的方式排列;图1(b)是密度峰值聚类算法根据图1(a)中数据绘制的决策图.根据图1(b),我们把密度和距离都较大的点1和点10作为聚类中心.Fig. 1 Decision graph of the density peaks clustering algorithm图1 密度峰值聚类算法决策图DPC算法具体步骤如算法1所示:算法1. DPC聚类算法.输入:数据集X={x1,x2,…,xn}、参数dc;输出:聚类结果Y.Step1. 计算所有点与点之间的距离di j,构建相似度矩阵;Step2. 基于Step1构建的矩阵和用户输入的参数dc,计算每个数据点的局部密度ρi和高密度距离δi;Step3. 依据Step2计算的数据点属性绘制决策图,并根据γi=ρi×δi选择2个属性都大的点作为聚类中心;Step4. 剩下的点按照“最近邻”算法,将“当前点”归于密度等于或者高于“当前点”的最近点一类;Step5. 去除当前类别中小于边界阈值的噪声孤立点;Step6. 返回结果矩阵Y.注意到,密度峰值聚类算法最大的优势在于根据聚类中心的两大特点绘制决策图,选择聚类中心[19].但是聚类中心的选择依靠局部密度ρi和距离δi,而这2个值都取决于数据点间的距离di j,当数据集规模较大时,计算量非常大,以样本数的二次幂规模增长,内存需求极大.一种可行的解决方法是通过网格筛选,先去除密度稀疏不可能成为聚类中心的点,然后利用剩余的点进行决策图绘制.虽然会损失一部分数据信息,但由于筛选的点均为密度稀疏的点,不影响聚类中心的选取,在保证聚类准确率的基础上极大地降低了计算复杂度.2 基于网格筛选的密度峰值聚类算法2.1 算法描述一种改进的基于网格筛选的密度峰值聚类算法(SDPC)的提出目的是降低原DPC算法的计算复杂度,使该算法不受数据集大小的限制.本文算法基本思想:引入稀疏网格筛选的方法,去除一部分密度稀疏即不可能成为聚类中心的点,只保留稠密网格单元中的点作为候选集进行聚类中心的选取.虽然引入网格筛选的方法会损失部分数据信息,但由于密度稀疏网格中的数据点局部密度均较小,与聚类中心局部密度较大的特点矛盾,因此筛选的点不会成为聚类中心,去除并不影响聚类中心的选择.例如,假设对数据规模为n的数据集X={x1,x2,…,xn}进行网格划分,并筛选去除“稀疏”网格,只对“稠密”网格包含的m(m≪n)个元素进行聚类,则新数据集A={a1,a2,…,am},ai∈X的聚类中心和数据集X的聚类中心基本相近,从而保证了聚类的准确性.SDPC算法首先以网格来划分数据空间,将数据集映射到网格单元;然后利用数据在网格中分布的不均匀性,选出“稀疏”网格和“稠密”网格,通过设定筛选比例,把“稀疏”的网格单元去除;集中精力考虑剩余网格中的数据点,使用DPC算法中绘制决策图的方法确定聚类中心;最后将剩余的点归到密度大于它的最近类中.该算法有效降低了时间复杂度和内存需求,具体步骤见算法2.定义1. 网络边长.假设存在一个d维数据集,第i维上的值在区间[li,hi)中,i=1,2,…,d,则S=[l1,h1)×[l2,h2)×…×[ld,hd)就是d维数据空间.对数据空间的每一个维度进行划分,将其划分成边长相等且互不相交的网格单元,为了提高计算效率和聚类效果,本文进行几何平均数的求解,定义网格的边长ξ:(6)其中,a为比例系数,用来调整控制网格边长大小.本文实验数据表明:当a∈[0.5,1.5]时,网格能得到合适的划分进行筛选,并且能够获得较好的聚类效果. 定义2. 单元格密度.假设将数据集X={x1,x2,…,xn}映射到对应的网格单元中,按照定义1中ξ将数据空间划分为{u1,u2,…,un}网格单元,则单元格ui的密度为ρui=count(Gui),(7)其中,count(Gui)表示统计网格编号为Gui的单元格中点数.算法2. SDPC聚类算法.输入:数据集X={x1,x2,…,xn}、筛选比例a;输出:聚类结果Y.Step1. 按照定义1划分数据空间,将数据点X={x1,x2,…,xn}映射到对应的网格单元;Step2. 根据式(7)计算每个网格密度,并按照网格密度进行从大到小排序;Step3. 按比例a筛选去除“稀疏”网格,只保留可能成为聚类中心的样本点,形成新的数据集A={a1,a2,…,a m};Step4. 计算数据集A中两两样本间距离;Step5. 根据式(3)和式(4)计算A中每个样本的ρi和δi值;Step6. 从由ρi,δi构成的决策图中选择k个聚类中心;Step7. 使用算法1中分配策略将数据集A中的其余数据点归于密度等于或者高于“当前点”的最近点一类;Step8. 将Step3筛选出的n-m个数据点,按照“最近邻”原则归到最近中心点一类;Step9. 返回结果矩阵Y.2.2 算法复杂度分析密度峰值聚类算法的核心思想是根据聚类中心的两大特点绘制决策图寻找聚类中心,本文算法保留了此选择聚类中心的方法,但本文算法却只需要在筛选过的m个点中寻找聚类中心,计算复杂度远远小于原密度聚类算法,尤其当n特别大的时候. 对样本规模为n的数据集,原密度峰值聚类算法存储两两之间距离矩阵的空间复杂度为O(n2),也是该算法空间复杂度的主要来源.本文算法只需对筛选剩下的m个点存储相似度矩阵,空间复杂度O(m2)≪O(n2).同时,本文算法比原密度峰值聚类算法增加了筛选去除的每个样本到每个聚类中心的距离,但增加的空间复杂度不超过O(|CL|(n-m)),而且表示类簇数的|CL|通常较小,因此,本文算法的空间复杂度一定比原密度峰值的空间复杂度小.与原密度峰值聚类算法相比,本文引入网格筛选的概念,需事先利用网格划分去除部分密度稀疏一定不是聚类中心的点,但此事件的时间复杂度几乎可以忽略.另外,获得聚类中心后,本文算法需对开始筛选去除的n-m个点进行分配,这些点在原密度峰值聚类算法中需要O((n-m)2)的时间复杂度计算其ρi和δi属性,本文算法只需要计算其与聚类中心的距离,时间复杂度一定小于O((n-m)2),为节省时间做出贡献.假设n表示数据集中样本点的个数,本文算法的时间复杂度由以下4部分决定:1)用O(n)的时间划分数据空间,将数据映射到网格单元中;2)使用快速排序的方法,O(u lg u)的时间按比例筛选稀疏的网格单元,u(u≪n)表示非空网格单元个数;3)对筛选过后剩下的m(m≪n)个点进行密度峰值聚类,时间复杂度为O(m2);4)分配筛选去除的点到k个聚类中心的距离,时间复杂度不超过O((n-m)2).所以本文算法时间复杂度不超过O(n)+O(u lg u)+O(m2)+O((n-m)2),由于m≪n且u≪n,其总的时间复杂度一定小于DPC算法.3 实验与分析3.1 实验设计为了证明SDPC算法的聚类性能,实验采用经典人工数据集和UCI数据集对本文算法进行测试和评价.我们将通过合成数据集的可视化来比较SDPC算法与DPC算法的精度以及运行效率.除了DPC之外,SDPC在UCI数据集的性能还与在高维数据集上效果较好的标准谱聚类(NJW-SC)[20]、基于Nystrom的低秩近似谱聚类(Nystrom-SC)[21]以及2种改进的DPC-KNN算法[7]和FKNN-DPC算法[8]进行比较.本文使用聚类精度(Acc)来测量聚类结果的质量.对于N个不同样本集xi,yi,zi是xi,yi和zi的固有类别标签和预测类别标签,Acc计算为/N,(8)其中,map()通过Hungarian算法将每个簇标签映射到类别标签,并且该映射是最优的.Acc的值越高,聚类性能就越好.在实验中,DPC和SDPC算法参数dc的选择参考文献[5]取1%~2%,DPC代码由文献[5]的作者提供.该文中算法均通过10次试验尝试获取最优参数,并且实验展示的结果都是其平均结果.仿真实验在Inter core i5、双核CPU、内存4 GB、Windows7的操作系统和MATLAB 2010的环境下进行.3.2 实验结果分析3.2.1 人工数据集实验结果分析本节对6组人工数据集进行算法测试,实验数据特征如表1所示.数据集A2和A3分别包含7 500个和5 250个数据点,具有变化数量簇(M=50,35)的2维集合.S2数据集包含15类、5 000个数据点,呈复杂性空间分布.Five Cluster数据集共有4 000个数据点,5个类分别具有不同的大小和形状.Twenty和Forty分别是有20和40类的数据集,均匀分布在数据空间.Table 1 Characteristic of Artificial Datasets表1 人工实验数据特征DatasetsSamplesAttributesCategoriesA27500250A35250235S25000215Five Cluster400025Twenty1000220Forty1000240实验首先将数据集按照不同的数据分布,映射到不相交的网格单元中;然后计算网格单元的密度,筛选去除密度稀疏网格中数据点.这里由于数据集规模较大和数据分布较紧密,所以筛选比例直接取70%,留下30%的“稠密”网格;然后用DPC 算法在留下的数据集上选取正确的聚类中心;最后分配剩余点以及筛选去除的点.SDPC算法的聚类结果如图2~7所示.Fig. 2 Clustering results of A2 by SDPC图2 SDPC对A2数据集的聚类结果Fig. 3 Clustering results of A3 by SDPC图3 SDPC对A3数据集的聚类结果Fig. 4 Clustering results of S2 by SDPC图4 SDPC对S2数据集的聚类结果Fig. 5 Clustering results of Five Cluster by SDPC图5 SDPC对Five Cluster数据集的聚类结果Fig. 6 Clustering results of Forty by SDPC图6 SDPC对Forty数据集的聚类结果Fig. 7 Clustering results of Twenty by SDPC图7 SDPC对Twenty数据集的聚类结果图2(a)~图7(a)表示DPC和SDPC在各个数据集上的聚类中心图,“☆”表示DPC的聚类中心,“○”表示SDPC的聚类中心.从图2(a)~图7(a)中看出,2个算法的聚类中心很接近,因此可以说明筛选去除密度稀疏网格单元中的数据并不影响聚类中心的选取.图2(b)~图7(b)分别是SDPC在这6组数据集上的决策图.进一步可以证明SDPC保留了DPC选取密度峰值的方法,可以准确找出聚类中心.图2(c)~图7(c)是SDPC的聚类结果图,可以看出SDPC均有令人满意的聚类结果.虽然DPC在这6组数据集上也表现出良好的聚类性能,但随着数据规模的增大,其时间消耗呈指数上升,如表2所示.从表2中可以看出,SDPC在这6个数据集上运行时间明显低于DPC.DPC依靠计算所有点的局部密度和距离属性寻找聚类中心,计算复杂度较高.而本文SDPC算法采用网格筛选的方法,只考虑从高密度数据集中选取聚类中心,计算复杂度将大幅度下降.随着数据规模的增大,SDPC的优越性越明显,如图8所示.从图8可以看出,数据集越大,SDPC比DPC快得越明显.这在一定程度上说明SDPC算法能够较好地处理大规模数据集,在保证聚类准确率的同时有效降低了时间复杂度,提高了DPC的运行效率.Table 2 Clustering Time of SDPC and DPC on Different Datasets表2 SDPC 和DPC在不同数据集上的聚类时间sDatasetsSDPCDPCA24.65012.7613A31.8396.223S23.2846.601Five Cluster2.3724.328Forty0.2350.301Twenty0.1990.28113.2.2 UCI数据集实验结果分析本节分别采用表3中6组UCI数据集验证本文SDPC算法的聚类性能.Iris是最常见的数据集,包含150个样本点、3类.Seeds包含3类小麦种子,每个样本有种子的7个属性描述.Waveform包含3类波形,每类各占33%.Ring Norm数据集中2类样本分别呈现有部分重叠的不同正态分布.Pen Digits和Gamma是2个包含10 000个以上样本的大规模数据集.由于高维数据在数据空间中分布稀疏,这里进行SDPC算法测试时,根据数据集大小的不同,随机选取不同的比例进行筛选,然后进行聚类中心的查找.分别计算在各情况下SDPC算法的准确率以及运行时间,与DPC以及Nystrom-SC,NJW-SC,DPC-KNN,FKNN-DPC进行对比.Nystrom-SC算法在大规模数据集上均取50%的样本点,并取最好的实验结果.SDPC以及各对比算法的聚类准确率和运行时间分别如表4和表5所示(“-”表示内存不足,无法进行实验).Table 3 Characteristic of UCI Datasets表3 UCI实验数据特征DatasetsSamplesAttributesCategoriesIris15043Seeds21073Waveform50002 12Ring Norm7400202Pen Digits109921610Gamma19020102从表4中可以看出,本文SDPC算法由于保留了DPC算法选取聚类中心的方法,所以聚类的准确率同其他5种算法相比还算令人满意.DPC以及其他对比算法在较小规模的数据集上可以正常运行,但当处理Pen Digits等大规模数据集时,会提示内存不足而无法聚类.因为DPC需要所有数据点之间的相似度,空间复杂度为O(n2),当数据量很大时,存储数据点的局部密度和距离属性需要很大的内存空间.而本文算法采用网格筛选的方法,只需要计算部分数据之间的相似度,空间复杂度大幅度降低,所以可以在有限的内存里进行大规模数据集的聚类.从表4中可以看出,大部分情况下,随着筛选比例的减少,即保留数据集的增大,SDPC的准确率会逐渐增加,这是由于保留的数据集越多,聚类中心的选择越准确.表5中,在小规模数据集上,SDPC算法和DPC算法的运行效率相当;但随着数据规模的增大,SDPC算法明显优于DPC算法,当数据规模达到上万时,本文算法仍然保持着良好的性能.因为SDCP只计算了部分数据之间的相似度寻找聚类中心;而DPC计算了所有数据之间的相似度,时间复杂度很高.随着筛选比例的增加,SDPC的速度越来越快.而Nystrom-SC和NJW-SC以及改进的DPC算法虽然在小数据集上有着不错的聚类效果,但在大规模数据集上,消耗时间太长,影响聚类效率.综合考虑聚类准确率以及运行时间,本文SDPC算法在大规模数据集上更有优势,适合大数据环境下的数据挖掘.Fig. 8 Clustering time of DPC and SDPC on different datasets图8 DPC和SDPC算法在不同数据集上的聚类时间Table 4 Clustering Accuracy of Different Algorithms on Different Datasets表4 各算法在不同数据集上的聚类准确率DatasetsSDPCScreening RatioAccuracySDPCDPCDPC-KNNFKNN-DPCNystrom-SCNJW-SC0.30.9400Iris0.20.94000.94000.96000.97300.88000.88670.10.94000.30.87 62Seeds0.20.87620.85240.91430.92400.89520.93810.10.87620.70.6072Wav eform0.50.62180.58080.58400.70300.61800.61860.30.61000.70.5104Ring Norm0.50.52310.50850.50820.51000.50570.94690.30.62090.70.4200Pen Digits0.50.42000.30.42050.70.5110Gamma0.60.51100.50.5248Table 5 Clustering Time of Different Algorithms on Different Datasets表5 各算法在不同数据集上的聚类时间DatasetsSDPCScreening RatioRunning Time∕sSDPCDPCDPC-KNNFKNN-DPCNystrom-SCNJW-SC0.30.5192Iris0.20.57820.5510.5380.6640.2020.0810.10.5999 Continued (Table 5)DatasetsSDPCScreening RatioRunningTime∕sSDPCDPCDPC-KNNFKNN-DPCNystrom-SCNJW-SC0.30.4831Seeds0.20.48480.5730.6190.8790.3370.1410.10.51650.72.404W aveform0.54.7169.5133729.76321.072150.387825.3420.38.0930.74.920Ring Norm0.510.07826.92110788.13752.293685.1602486.5430.318.6420.78.205P en Digits0.518.6030.349.6620.715.581Gamma0.629.6710.591.8884 结束语求解密度峰值聚类算法将所有样本点作为聚类中心的候选数据集,依赖于计算所有数据点的局部密度和距离属性,时间复杂度和空间复杂度均为O(n2),无法处理大规模数据集.本文算法引入网格筛选的方法,通过将数据点映射到对应的网格中,根据数据分布去除局部密度较小的点,只保留有效数据集绘制决策图寻找聚类中心,很大程度上降低了时间开销以及空间开销.本文从理论上证明了网格筛选可以有效降低计算复杂度.经典人工数据集和UCI真实数据集的实验结果表明:本文算法优于传统的密度峰值聚类算法,既保持了原有算法寻找聚类中心的准确性,又降低了计算复杂度,能较好地处理大规模数据集.无论是原密度峰值聚类算法还是结合了网格筛选方法的密度峰值聚类算法,在选择聚类中心时,依然需要依靠用户的经验,进一步探索是否可以使选择更加可靠简单. 参考文献【相关文献】[1] Qiao Shaojie, Han Nan, Zhang Kaifeng, et al. Algorithm for detecting overlapping communities from complex network big data[J]. Journal of Software, 2017, 28(3): 631-647 (in Chinese)(乔少杰, 韩楠, 张凯峰, 等. 复杂网络大数据中重叠社区检测算法[J]. 软件学报, 2017, 28(3): 631-647)[2]Shi Qianyu, Liang Jiye, Zhao Xingwang. A clustering ensemble algorithm for incomplete mixed data[J]. Journal of Computer Research and Development, 2016, 53(9): 1979-1989 (in Chinese)(史倩玉, 梁吉业, 赵兴旺. 一种不完备混合数据集成聚类算法[J]. 计算机研究与发展, 2016, 53(9): 1979-1989)[3]Xu Zhengguo, Zheng Hui, He Liang, et al. Self-adaptive clustering based on local density by descending search[J]. Journal of Computer Research and Development, 2016,53(8): 1719-1728 (in Chinese)(徐正国, 郑辉, 贺亮, 等. 基于局部密度下降搜索的自适应聚类方法[J]. 计算机研究与发展, 2016,53(8): 1719-1728)[4]Morris K, Mcnicholas P D. Clustering, classification, discri-minant analysis, anddimension reduction via generalized hyperbolic mixtures[J]. Computational Statistics & Data Analysis, 2016, 97: 133-150[5]Rodríguez A, Laio A. Clustering by fast search and find of density peaks[J]. Science, 2014, 344(6191): 1492-1496[6]Xie Juanying, Gao Hongchao, Xie Weixin. K-nearest neighbors optimized clustering algorithm by fast search and finding the density peaks of a dataset[J]. SCIENTIA SINICA Informationis, 2016, 46(2): 258-280 (in Chinese)(谢娟英, 高红超, 谢维信. K近邻优化的密度峰值快速搜索聚类算法[J]. 中国科学: 信息科学, 2016, 46(2): 258-280)[7]Du Mingjing, Ding Shifei, Jia Hongjie. Study on density peaks clustering based on k-nearest neighbors and principal component analysis[J]. Knowledge-Based Systems, 2016, 99: 135-145[8]Xie Juanying, Gao Hongchao, Xie Weixin, et al. Robust clustering by detecting density peaks and assigning points based on fuzzy weighted K-nearest neighbors[J]. Information Sciences, 2016, 354: 19-40[9]Zhou Liang, Pei Chen. Delta-distance based clustering with a divide-and-conquer strategy: 3DC clustering[J]. Pattern Recognition Letters, 2016, 73: 52-59[10]Gong Shufeng, Zhang Yanfeng. EDDPC: An efficient distributed density peaks clustering algorithm[J]. Journal of Computer Research and Development, 2016, 53(6): 1400-1409 (in Chinese)(巩树凤, 张岩峰. EDDPC: 一种高效的分布式密度中心聚类算法[J]. 计算机研究与发展, 2016, 53(6): 1400-1409)[11]Zhang Yanfeng, Chen Shimin, Yu Ge. Efficient distributed density peaks for clustering large data sets in MapReduce[J]. IEEE Transactions on Knowledge and Data Engineering. 2016, 28(12): 3218-3230[12]Zhang Hao, Dai Guanglong. Improvement of distributed clustering algorithm based on min-cluster[J]. Optik-International Journal for Light and Electron Optics, 2016, 127(8): 3878-3881[13]Cenedese A, Luvisotto M, Michieletto G. Distributed clustering strategies in industrial wireless sensor networks[J]. IEEE Transactions on Industrial Informatics. 2016, 13(1): 228-237[14]Ding Xiangwu, Guo Tao, Wang Mei, et al. A clustering algorithm for large-scale categorical data and its parallel implementation[J]. Journal of Computer Research and Development, 2016, 53(5): 1063-1071 (in Chinese)(丁祥武, 郭涛, 王梅, 等. 一种大规模分类数据聚类算法及其并行实现[J]. 计算机研究与发展, 2016, 53(5): 1063-1071)[15]Kumar S, Mohri M, Talwalkar A. Sampling methods for the Nystrom method[J]. Journal。

基于网格密度的带有层次因子的聚类算法

基于网格密度的带有层次因子的聚类算法

0 引 言
聚类 ( ls r g 是 数 据 挖 掘 中 的一 种 主 要 技 Cut n ) e i
某个 阈值大 , 就不停 止聚类 。
基于 网格 的聚类算法 的思想是把数据空间量化
术 , 它是将数据对象分成 多个具 有如下 特征 的类或 簇的过程 , 即如果这些数据对象属于不 同类 , 则相似度
贾 佳
( 天津 大 学 计算机 科 学与技 术 学 院 , 津 30 7 ) 天 00 2
摘 要 : 于 网格 和 密度 的聚类算 法是 一类很 重要 的聚 类算法 , 由于采 用单 调性 搜索 的方法 , 得 聚类 结果 并 不 十分 理 基 但 使
想, 因此文 中在 G D算 法 的基 础上 , 出了一 种基 于网格 和 密度 的带有 层 次 因 子与 距 离 因子 的 G L D 提 D D算 法 。G L D D算 法 将 数据空 间按 要求划 分成 网格结 构并 计算 网格密 度 , 建 新 的跃 迁 函数 以达 到形 成 有效 聚类 的 目的。实 验证 明 , 算 法 构 该
竺 篓的 大簇
步 考蓍

l则 不 能加入 当前簇 ’
由哥 虿 此
耋 苎 , 屏掉音据 以用置 对于需要噪声 的情况 , 采 设 为 蔽 噪数 可 了
的形 状


显 阈 以 的来 其 簇 另 , 示 值 下 簇 和 他 区 n I ’
则 可
算法 中, 用户 可 以根 据实 际聚类 的结果


: 破
拳 !3完全顺 打 ,明次 D对数 据 序这也说再 GD 数 相同 ,乱 G用 D 进 并 L


的输 入顺序 不敏感 。

基于网格的聚类方法研究

基于网格的聚类方法研究

基于网格的聚类方法研究作者:高兵邹启杰来源:《软件工程师》2010年第03期摘要:已有的聚类算法对于发现任意形状的聚类和处理离群点效果不理想,分析了现有基于网格的聚类算法。

使用网格方法的数据分析方法将空间划分为由(超)矩形网格单元组成的网格,然后在网格单元上进行聚类。

最后,总结全文并提出基于网格的聚类需要进一步研究的方向。

关键词:数据挖掘;网格;聚类1 引言数据挖掘是指从大型数据库或数据仓库中提取隐含的、未知的及有应用价值的信息或模式。

它是数据库研究中的一个很有应用价值的领域,融合了数据库、机器学习、统计学等多个领域的理论和技术[1]。

聚类分析是数据挖掘中广为研究的课题之一,是从数据中寻找数据间的相似性,并依此对数据进行分类,从而发现数据中隐含的有用信息或知识。

目前已经提出了不少数据聚类算法,其中比较著名的有CLARANS[2]、BIRCH[3]、DBSCAN[4]和CLIQUE[5]等。

但对于高维、大规模数据库的高效聚类分析仍然是一个有待研究的开放问题。

网格方法是空间数据处理中常用的将空间数据离散化的方法。

基于网格的聚类算法由于易于增量实现和进行高维数据处理而被广泛应用于聚类算法中。

研究人员已经提出了很多基于网格的聚类算法,包括STING[6],它利用了存储在网格单元中的统计信息;WaveCluster[7]它用一种小波转换方法来聚类数据对象;CLIQUE在高维数据空间中基于网格和密度的聚类方法等。

本文对已有的基于网格的聚类算法进行了研究,从网格的表示,划分网格单元的方法,到统计网格内信息,搜索近邻网格单元,聚类超过指定阙值的网格单元的各个步骤进行了分析,最后对基于网格方法聚类的研究方向做了展望。

2 网格的定义与划分网格的基本概念,设A1, A2,…, Ar 是数据集O={O1, O2,…, On }中数据对象的r 个属性的有界定义域,那W=A1 ×A2 ×…×Ar 就是一个r 维空间, 将A1,A2 ,…, Ar 看成是W 的维( 属性、字段),则对于一个包含n 个数据点的r 维空间中的数据集O={O1 , O2 ,…, On },其中Oi ={Oi1 ,Oi2 ,…, Oir }( i=1, 2,…, n) , Oi 的第j 个分量Oij ∈Aj 。

数据挖掘中网格聚类算法研究

数据挖掘中网格聚类算法研究

河南
郑州
4 00 ) 5 0 0
【 摘 要 】 典 的 固定 网格 划 分 算 法是 CLQUE 算 法 , 高 维 的 大数 据 集 上 聚 类 效 果 较 好 , 是 因 网格 单 元采 用硬 化 分 的 缺 陷 , 致 了其 效 经 I 在 但 导 率 和聚 类质 量 不 够 高。 而基 于 统 计 学 的 网格 划 分技 术 能 充分 考 虑 数 据 集 分 布 特 征 , 能识 别任 意 形 状和 大 小 的聚 类 。 且 【 键词 】 类 ; 关 聚 网格 ; 计 统
这 是 一 种 新 的 自适 应 网 格 聚类 算 法 , 主要 利 用 数 据 在数 据 空 间 的
分 布 特 性 来 划 分 网格 , 量 避 免 处 在 同 一类 中数 据被 划 分 到 不 同 的 网 尽 挖 掘技 术 研 制 了 C S I PE A SO .E质 量控 制 系 统 , 三 家 欧 洲 航 空 公 司 用 被 格 。 同时 , 网格 索 引 采 用 的 C — re结 构[ 进 行 了相 应 的 改 进 , 对 D Te 6 1 也 进 于诊 断 和 预 测 渡 音 7 7的故 障 , 来 了可 观 的经 济 效 益 。 3 带 而使该算法的执行效率得到提高。 迄 今 为 止 , 们 已经 提 出 了许 多 聚类 算 法 。 常 分 为 5类 : ) 划 人 通 f有 1 31 相 关 概 念 与 定 义 . 分 的方 法 ,如 C A AN L R S算 法 、AM 算 法 等 ; )基 于 层 次 的方 法 , P ( 2 如 Bn定 义 : i 在数 据集 每一 维上 划 分 的小 空 间 。 过 建 立 每 一 bn的 通 i A E GN S算 法 、 I A算 法 等 : 1基 于 密度 的 方 法 ,如 D S A 算 法 DAN f 3 BC N 柱 状 图 ,结 合 数 据 分 布 的 数 学 期 望 和 方 差 对 每 一 维 上 的 bn进 行 合 i 等 ;4基 于 网格 的 方 法 , S I G 算 法 、 LQ E算 法 等 ; ) 于模 型 ( ) 如 TN C IU (基 5 并 , 到该维上的较合理的划分。 得 的方 法 , F M 算 法 。 如 C d

基于密度网格的证券市场聚类模型研究

基于密度网格的证券市场聚类模型研究
( 二) 数 据 去噪
( 一) 证 券 市场 上 的 聚 类模 型 研 究现 状
在抓取 的股票数据 中存 在数据 缺失 , 对于 聚类 产生不 良的影 响。针对这种情况 , 论文采用 小波分析 来去除 噪声 。通过 小波 分 析 中的信号分解将数据分解成高频 和低频信号 , 保 留低频 段数据 , 剔 除高频段 噪声数据 。
基 于 密 度 网 格 的 证 券 市 场 聚 类 模 型 研 究
王 军 于 勇
( 中央财经 大学信 息 学院
【 摘 要】 证券 市场 上聚 类分析 鲜有 利 用密度 网格创 建模 型 的研 究。 密 度 网格 聚类 算法 相比 k —n l e a l l S 聚 类算 法 有诸 多优 势 。利 用密 度 网格 对证 券 市场 聚类 分析 , 不仅 可以发现 证 券 市场隐藏 知识 , 还 可以发 觉异
( 三) 密度 网格 聚 类模 型设 计 与 实现
很多研究将数据挖掘 的种种算法应用在证券市 场不 同的应用 领域 中, 例如决策树算法应用到股票选择 , 神 经 网络 与支 持 向 量 机 用于预测破产 。最近邻分类用于骗局检测 。还有一些研究 者将这 些算法应用到金融时间序列分析 、 边界检测上 。但是 , 相 比分类和 回归而言 , 聚类模 型在证券市场领域应用并不算多 。 ( 二) 现 有 聚 类 分 析 方 法 目前为止应 用在 证券 市场上 的聚类 分析 方法 主要 可 以分为 以下两类: 1 、 . 以k .m e a n s为代表 的基 于划分 的方法 k .r l l e a n s 是一种基于质心 的算法 。k .m e ns的思想就 是将 a 聚类 问 题 改 成 是 一 个 最 佳 化 的 问 题 , 简 言之 , k . me ns解 决 问 题 a 要如何选取簇 以及 相关 的群 中心 , 使 得平 方误 差 的值 最小 。k . m e ns a 算法具备 时间复杂度低且 易于实现 的优 点 。但是该算 法在 数据量很大时并没有 良好 的可伸缩性 。另外 , 只有 当簇 均值 有定 义的情况下 k .me a n s 算法才 能使 用 , 用户需要对聚类 的个数预先 进 行 定 义 。k —m e ns a 算法对噪声和离群 点数据是敏感 的 , 因 为 少 量的噪声数据能够对均值产生极大 的影响 。 ・ 2 、 以C U RE为代 表 的基 于层 次 的 方 法 C U R E算法将数据对象组成一棵聚类树 。根据 层次分裂 是 自 底向上 的还是 自顶 向下的 , 层 次聚类方 法还可 以进 一步分 为凝聚 的和分裂的 。这种 自底 向上 的策 略首先将 每个对 象作为其 簇 , 然 后合 并这些原子簇 , 直 到所 有的对象 都在一个 簇中 , 或者某个 终止 条件 被满足 。绝大多数层次聚类算法都属于这一类 。 个 纯粹 的层 次聚类 方法 的质 量受 限 于一旦 合并 或分 裂 执 行, 就不能修正 。也就是说 , 如果 某个 合并 或分块决策在后来证 明 是不好 的选择 , 该方法无法退 回并更 正。 三、 基 于 密 度 网格 的聚 类方 法 本 文 提 出 的证 券 市 场 聚 类 模 型 是 基 于 密 度 网 格 的 , 基 于密度 网格 的聚类算法 的基本 思路 是采 用网格化的数据空间来刻画数据 的分布情况 。每个 网格 单元保存 落在 其 内部 的数据 的统计 信息 , 通过在 网格空 间上 进行 聚类 操作来发现簇 。该 算法能发现任意形

基于订单网格化聚类方法的医药自动拣选系统与电子标签拣选系统的比较研究

基于订单网格化聚类方法的医药自动拣选系统与电子标签拣选系统的比较研究

基于订单网格化聚类方法的医药自动拣选系统与电子标签拣选系统的比较研究沈长鹏;邹霞;吴耀华【摘要】A systemic and efficient picking method is presented to the medicine distribution center based on the comparative analysis between the two order picking systems (automated-picking system based on order cluster and pick-light picking system). As both batching and zoning, the two frequentlyused operational policies, are essentially order clustering, the customer order sheet can be divided into many unit grids. After the time formulation for each system in one-dimensional unit is defined according to the logical movements, we present a time sequence models for two-dimensional systems and use filling curves to link the one-dimensional unit grids. In the experimental study, we get the efficiency of some key factors such as picking speed and replenishment speed.%通过对两种医药订单拣选系统(基于订单网格化聚类方法的医药自动拣选系统和电子标签拣选系统)的对比分析.提出了适合医药配送中心采用的高效率分拣的方法。

基于网格的共享近邻聚类算法

基于网格的共享近邻聚类算法

很大。聚类 算法能在数据集 中发现隐藏 的数据模式。基于相 似性的聚类 算法 大体上 可 以分 为 以下 几大类 : 于划分 的方 基
法…、 基于层次的方法 J基于密度 的方法 J基 于网格 的方 、 、

和基于模型的方法 ” 等。其 中基于网格的聚类技术首
先通过将数据空 间的每 一维平 均分割成 等长 的 区间段 , 而 从
0 引 言
聚类是将数据对 象分组成 为多个 类或簇 , 使得 在 同一 个
簇 中的对象之间具有 较高 的相 似度 , 不同簇 中的对象差 别 而
用多阶段 的方式 , 利用等密度线 的思 想对数据集进行聚类 , 它 的缺点是不能有 效地分离 出多个类 ;N S N算法的主要思想是 :
对于数据集 中每个点 , 出距离其 最近的 k 找 个邻近点 , 形成一
o t eso osse e t eya dg tgo ls rq ai . ul r rnie f ci l n e od cu t u l i v e y t
Ke o d:s dbsd h e e et e br et yw rs a -ae;sad na s ni o ;cne r r g h r
t e d ts to l n e h h aa e n yo c ,t e GNN C ic v r cu tr f ab t r h p s T e e p r n e u t s o a t C s o e a ds o e l ses o i a y s a e . h x i n r r e me t rs l h w t ti a d c v r s h n i
ote r o e edt e b dt hiu n i oe f esyt ehl f db e sytrsodme o .T e ulr o ni si t aa t ys cnq eadds sdo ni rsodo ydni ehl t d h is s n h s a e p d t h a s th h G Ncut e ytem to f hr ers ni b r dipoe ee ie c yteueo es dcne,Sann N ls rdb ehdo ae n a t e h o rvdt fc nyb s f et e h s d e g n a m h i h h t a r cnig
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(a)
(b)
图1 网格单元的相连定义(a)4-connection论及展望
基于网格聚类方法的优点是它的处理速度快,因为 其速度与数据对象的个数无关,而只依赖于数据空间 中每个维上单元的个数,发现任意形状、任意大小的 簇、计算结果与数据输入顺序无关、计算时间与数据量 无关,同时不要求像k均值一样预先指定簇个数等。但 是,基于网格方法的聚类算法的输入参数对聚类结果影 响较大,而且这些参数较难设置。当数据中有噪音时, 如果不加特殊处理,算法的聚类质量会很差。而且,算 法对于数据维度的可伸缩性较差。 基于网格的聚类方法目前还存在一些急需解决的问 题,主要有以下几点:(1)当簇具有不同的密度时, 全局的密度参数不能有效发现这样的簇,需要开发具有 可变密度参数的算法。(2)对于不同类型数据的聚类 问题,比如对于高维数据,网格的数据将急剧增加,需
120
方法的代表性算法。WaveCluster处理低维空间数据, 它的性能超越了BIRCH、CLARANS,与DBSCAN等优 秀的聚类算法 [15]。CLIQUE考虑了高维子空间聚类, 但它的时间复杂度较高,需要用户指定全局密度阈 值。算法MAFIA[8]对CLIQUE进行了改进,为了减少聚 类算法需要处理的网格单元数目,MAFIA将均匀划分 网格中每一维上数据分布密度相似的相邻段合并,由 此得到一个不均匀划分的网格。这个网格在数据分布 较均匀的区域划分粒度大,在数据分布不均匀的区域 划分粒度小,这种不均匀划分网格的方法能够提高聚 类的质量,被后续的许多算法所采用。 采用由底向上的网格划分方法的优点在于,它能 通过对数据的一遍扫描,将数据压缩到一个网格数据 结构内,并基于这个网格数据结构,发现任意形状 的簇。此外,如果网格单元的粒度较小(即体积较 小),那么得到的聚簇的精度较高,但是算法的计算 复杂度较大。此外,由底向上的网格方法存在不适合 处理高维数据的问题。在高维空间,数据的分布是非 常稀疏的,网格方法失去其压缩作用,而且属于同一 个簇的高密度网格单元也可能不相连,这使聚类算法 不能发现合理数目的簇。 2.2 自顶向下的划分方法 自顶向下的网格划分方法采取分治的策略(divide and conquer principle),对数据空间进行递归划 分,使问题的规模不断减小。首先将原数据空间划分 为几个较大的区域。对于每个得到的区域,划分过程 反复执行,直到每个区域包含属于同一个簇的数据 点,那么这些区域就是最终的网格单元。基于自顶向 下网格方法的聚类算法直接将高密度网格单元识别为 一个簇,或是将相连的高密度网格单元识别为簇。 OptiGrid[9]与CLTree[10]是两个典型的基于自顶向 下网格划分方法的聚类算法。其中, OptiGrid则是用 空间数据分布的密度信息来选择最优划分。通过一个 密度函数来决定切割平面,可以将数据空间划分为规 则的或不规则单元,与传统的等间距的划分相比,可 以用此来解决高维聚类的问题。而CLTree用划分后的
3 基于网格的聚类过程
基于网格的聚类算法的基本过程是,首先将数据 空间W划分为网格单元,将数据对象集O 映射到网格 单元中,并计算每个单元的密度。根据用户输入的密 度阈值MinPts 判断每个网格单元是否为高密度单元, 由邻近的稠密单元组形成簇[11],如表1。 表1 基本的网格聚类算法
121
技术
信息增益来选取最优划分。 自顶向下划分方法的主要优点在于不需要用户 指定划分参数,而是根据数据的分布对空间进行划 分,因此这种划分更为合理。数据空间维度对自顶 向下网格方法的影响较小,可以快速将大型高维数 据集中的簇分隔开。这一类方法的计算复杂度与数 据集大小和维度都呈线性关系适合于处理高维数 据。由于划分是基于数据分布的,而通常认为噪音 是在整个空间均匀分布的,所以自顶向下划分方法 对噪音不敏感。但是,由于这种方法得到的网格单 元的体积远大于由底向上网格方法中的网格单元体 积,因此方法产生的簇的描述精度比由底向上的网 格方法得到的簇的描述精度要低。而且在自顶向下 的划分过程中,同一个簇可能被划分到不同的区域 中,最终得到的同一区域也可能包含不同的簇,这 样就进一步降低了算法的正确度。这类划分方法的 另一个缺点是它在划分过程中,需要对数据集进行 多次扫描。 而由底向上划分方法在于只需对数据集进行一次 线性扫描以及较高的簇的描述精度。因此,两类方法 适用于不同的问题。前者适于处理高维数据集,后者 能有效处理存取代价较大的超大型数据集与动态数 据。
为减少,而且单元增加与维数的关系由指数增长变为线 性增长,所以能进一步减少算法运行所需的时间,具 有较低的计算复杂度 [13]。其外,只有在非常特殊的情 况下,使用4-connection定义得到的聚类结果才会与 使用8-connection定义得到的聚类结果不同[14],这是 因为,当4-connection的网格单元是高密度网格单元 时,四个对角线上的网格单元不论是否是高密度网格单 元,都能被正确的聚类;只有当与对角线上的网格单元 相邻的2个网格单元同时为空且该单元本身是高密度网 格单元时,不能正确聚类,在划分网格时,通常都要求 网格单元的大小远小于簇的大小,因此可以认为这种情 况出现的可能很小。
ε 为用户输入的密度阙值,当
ε 时,该网格单元是—个密集网格单元。
相对于稠密网格单元来说,大多数的网格单元包含 非常少甚至空的的数据,这一类网格单元被称为稀疏网 格单元。大量的稀疏网格单元的存在会极大的降低聚类 的速度,需要在聚类之前对稀疏网格单元进行处理, 定义稀疏密度阈值为 θ ,当density> θ 时,该网格单元 是—个稀疏单元。对于稀疏网格单元的处理方法一般采 用压缩的方法或者直接删除的方法,如果需要保留稀疏 网格单元用于后续处理,可以使用压缩的方法;如果在 现有数据的基础之上直接聚类,可以删除稀疏网格单 元,理论分析和实验证明删除稀疏网格单元并不影响聚 类的质量[12]。 3.2 由稠密网格单元形成簇 在基于网格的聚类算法中,根据以上分析, 由邻接的稠密单元形成簇是相对直截了当的,这也是基 于网格的方法的优点之一。但是需要首先定义邻接单 元的含义。设n维空问中的存在任意两个网格单元U1和 U2,当这两个网格单元在—个维上有交集或是具有一 个公共面时,称它们为邻接网格单元。 在二维空间中,比较常使用的是4-connection 相邻定义和8-connection相邻定义(如图1), 4-connection更适合在聚类算法中使用。因为当寻找 某个网格单元的邻居时,在4-connection定义下,一 个网格单元只有2d个邻居,而在8-connection定义 下,有3d-1个邻居,当数据维度d较大时,这个数目非 常大。使用4-connection不仅参与计算的单元数目大
122
要有效地技术发现近邻单元。(3)当数据集的规模巨 大以及数据具有地理分布特性时,需要开发有效的并 行算法来提高处理的速度。(4)对现有网格算法的优 化,从不同方面提高网格算法的有效性。比如开发稀疏 网格的压缩算法、密度相似网格的合并算法等。 本文对基于网格的聚类方法的已有研究进行了分析 和总结,包括网格的定义与划分方法、网格单元密度的 确定、由邻接网格单元形成聚簇的聚类过程;最后对网 格聚类方法优点与局限性进行总结,在已有研究分析的 基础上,提出后续需要重点解决的问题。
[6]Wang W,Yang J,Muntz R.STING:A Statistical Information Grid Approach to Spatial Data Mining[C].In:Proceedings of the 23rd VLDB Conference.Athens,Greece,1997.186-195. [7]Sheikholeslami G,Chatterjee S,Zhang A.WaveCluster:A Multi-Resolution Clustering Approach for Very Large Spatial Databases[C]. In:Proceedings of the 24th VLDB Conference.New York,USA,1998.428-439. [8]Goil S,Nagesh H,Choudhary A.MAFIA:Efficient and Scalable Subspace Clustering for Very Large
M r 个网格单元。
基于网格聚类算法的第一步是划分网格结构,按 搜索子空间的策略不同, 主要有基于由底向上网格划 分方法的算法和基于自顶向下网格划分方法的算法。 2.1 由底向上的划分方法 由底向上的网格划分方法按照用户输入的划分参 数(即每维段数ki,1 ≤i ≤d),将数据空间均匀划 分为相等大小的网格单元,假设落入同一网格单元内 的所有数据点都属于同一个簇,每个网格单元保存落 入其内数据的统计信息,比如数据点个数,数据点之 和。包含一定数目数据点的网格单元被称为高密度网 格单元。 WaveCluster与CLIQUE是采用由底向上网格划分
1 引言
数据挖掘是指从大型数据库或数据仓库中提取 隐含的、未知的及有应用价值的信息或模式。它是 数据库研究中的一个很有应用价值的领域,融合了 数据库、机器学习、统计学等多个领域的理论和技 术 [1]。 聚类分析是数据挖掘中广为研究的课题之一,是 从数据中寻找数据间的相似性,并依此对数据进行 分类,从而发现数据中隐含的有用信息或知识。目 前已经提出了不少数据聚类算法,其中比较著名的 有CLARANS[2]、BIRCH[3]、DBSCAN[4]和CLIQUE[5] 等。但对于高维、大规模数据库的高效聚类分析仍然 是一个有待研究的开放问题。 网格方法是空间数据处理中常用的将空间数据离 散化的方法。基于网格的聚类算法由于易于增量实现 和进行高维数据处理而被广泛应用于聚类算法中。研 究人员已经提出了很多基于网格的聚类算法,包括 STING [6],它利用了存储在网格单元中的统计信息; WaveCluster [7] 它用一种小波转换方法来聚类数据对 象;CLIQUE在高维数据空间中基于网格和密度的聚类 方法等。 本文对已有的基于网格的聚类算法进行了研究, 从网格的表示,划分网格单元的方法,到统计网格内 信息,搜索近邻网格单元,聚类超过指定阙值的网格
相关文档
最新文档