DEN-Stream:一种分布式数据流聚类方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第33卷第7期2016年7月
计算机应用与软件
Computer Applications and Software
Vol.33 No.7
Ju l.2016 DEN-S tream:—种分布式数据流聚类方法
李长路12王劲林2郭志川2韩锐2
>(中国科学院大学北京100190)
2 (中国科学院声学研究所国家网络新媒体工程技术研究中心北京100190)
摘要现有的数据流聚类方法很难兼顾数据稀疏和子空间聚类等高维数据难题,而分布式数据流对数据流聚类提出包括在线
计算效率、通信开销以及多路数据的融合等更多挑战。
提出分布式数据流聚类方法,采用全局统一的网格划分和衰退时间以支持多
路数据流融合,并周期性检查和删除过期网格来控制概要规模。
通过对多路高维数据流的一遍扫描,发现高维数据流子空间任意形 状的聚类,并反映数据分布随时间的演化。
在线组件效率高开销低,概要信息简洁,通信代价低。
实验表明,该方法能够对分布式数 据流正确聚类并演进,在线组件效率高,概要规模小。
关键词 分布式数据流子空间聚类网格聚类高维数据
中图分类号 TP3 文献标识码 A D0I:10.3969/j.issn. 1000-386x.2016.07.013
DEN-STREAM:A DISTRIBUTED DATA STREAM CLUSTERING METHOD
Li Changlu1,2 Wang Jinlin2Guo Zhichuan2Han Rui2
1( University of Chinese Academy of Sciences ,Beijing 100190, China)
2 {National Network New Media Engineering Research Center, Institute of A coustics, Chinese Academy of Sciences, Be
Abstract Curreet data stream clustering methods are diff i c u l t t o take into account the high-dimeesional data problems including data sparsity and subspace clustering,etc.,while the distributed data stream raises more challenges on data stream clustering,such as online computational efficiency,communication overhead a nd the integration of multi-channel data.The distributed data stream clustering method proposed in this paper uses globally uniform meshing and declining time t o support the inte the summary size by periodically checking and removing outdated grids.By scanning multi-channel high-dime method finds the clusters with arbitrary shapes in subspace of high-dimensional data stream,and they reflect the over time.The online component in t he paper has high efficiency and low overhead,succinct summary information and low communication cost.Experiment shows that the proposed method can correctly cluster the distributed data streams and evolve them,the efficiency of online component i s high,and the summary size i s small as well.
Keywords Distributed data stream Subspace clustering Grid-based clustering High-dimensional data
〇引言
网络技术、互联网应用生态以及包括智能终端、传感器等各 种数据采集设备的发展,使得分布式数据流作为一种广泛存在 的数据组织形式[12]。
数据流聚类挖掘技术已经成为一个重要 研究领域,并广泛应用于电子商务、物理世界监测。
数据流给传 统聚类技术带来的主要挑战包括快速的数据吞吐、潜在无限、数 据高维、只能执行一遍时序扫描、高效的存储需求以及反映数据 分布的时间演进等[1]。
实际的数据流大都来自分布式环境下 的多个数据采集终端,除前述挑战外,还必须面临数据采集终端 的资源约束、多路数据流正确融合[2]以及持续的数据通信带来 的带宽占用。
著名的数据流聚类算法CluStream[3]首先提出的“在线一离 线”二元组件结构。
其中在线部分负责扫描数据流,形成关于 数据分布的概要信息;离线部分采用基于距离的传统聚类算法k-means,利用在线部分提供概要信息挖掘产生聚类。
CluStream 还提出了金字塔形时间衰减结构来优化历史概要数据的储存。
然而CluStrem无力处理噪声、高维数据等数据流常见问题,同其他基于距离公式的方法一样,不能发现任意形状聚簇。
后续 的研究普遍继承了和发展了二元组件结构和高效存储思想,并 针对性地发展了克服某些前述数据流难题,但很难同时解决现 有挑战。
基于密度['5]和网格[-/]的聚类方法普遍具有计算速度快,能够以便扫描数据发现任意形状聚类,因而成为数据流聚类 的一类基本方法。
而子空间聚类[1°]也是数据流聚类的一个重 要课题。
D-Stream[6]基于密度网格方法,理论上能够发现任意 形状任意数量的聚类,同时将新数据到达时概要信息更新复杂
收稿日期:2014 - 1- 03。
国家科技支撑计划项目(2012BAH73 F01);国家高技术研究发展计划项目(2011AA01A102);中科院先导专 项课题(XDA06040301)。
李长路,博士生,主研领域:数据挖掘,用户兴 趣建模。
王劲林,研究员。
郭志川,副研究员。
韩锐,副研究员。
第7期李长路等:DEN-Stream:—种分布式数据流聚类方法57
度降低。
L!等人于2009年提出对D-Stream的改进版本[11],引人“网格引力”概念,提高了聚类质量,但其概要信息更复杂,计 算复杂度更高。
这两种方法都只能发现摘要空间的聚类,不能 对高维数据流进行子空间聚类;且在分布式多路数据流环境下,其关于网格密度上限、阈值的定理不再成立。
文献[7,12]针对 高维空间数据作了改进,但仍不是子空间聚类,且牺牲了计算效 率。
DS_C A B O S F V[s]将静态高维数据聚类算法应用于数据流聚 类,同样无法发现任意形状的子空间聚类。
i g d c l[134s出不规 则网格划分的方法降低网格尺寸和边界带来的负面影响,该方 法概要信息量大,网格维护复杂度高,在线部分资源占用过大,不规则的网格划分导致无法实现多路数据流的融合。
本文提出的数据流聚类方法D E N-Stream,采用主流的在 线一离线二元结构设计,其离线核心算法采用密度意识子空间 聚类算法D E N C O S[14]。
在线部分维护高维数据流全空间的网 格概要信息,采用规则网格划分,特征向量简洁,更新效率高。
离线部分采用基于密度网格的算法D E N C O S[14],发现任意形状 的子空间聚类,并能有效克服高维数据的稀疏性,采用衰退因子 反映全局统一的时间进化。
由于在满空间存在大量空白网格,只在线维护非空白的有效网格以提高存储和通信资源使用效 率。
在分布式多路数据流上,网格密度上限定理不再成立,通过 统计所有网格密度之和来计算后续挖掘过程中的参数,同时避 免删除稀疏网格带来聚类误差。
1分布式数据流聚类方法研究
11网格划分
5=^1x4x…表示d数据流的满空间,1,2,…A
为S的各个维度属性。
其中禹取值范围为[M m,,M ra,),维向量
i =(丨1,2,…,Q存储响应维度的取值区间长度:
I,= M a x, - M i n,(1)每个维度被均匀分为A个间隔,则分辨率为:
M a x.- M i n'
= —-k^'()数据流的d维全空间被划分为^个矩形单元组成的网格。
1.2特征向量
d维空间网格结构中每一个网格由一个特征向量描述,其 定义为(d,Z),g)。
其中&为该网格最后一个数据点到达时间,Z)为该网格的密度在最后一个数据点到达时更新的结果,空网格 置零。
若在时刻《 —个新的数据点*到达,其对应网格密度更 新为:
D(g,t)=1+ D(g,t g)x 入1(3)任何数据对网格密度的贡献随着时间延伸而减弱,后到达 数据对网格密度具有更大的贡献。
A(A E(0,))为网格密度 的时间衰退因子。
'为识别网格的编号,为了便于将数据点* = (*1,2,…,*)映射到对应的网格,定义id为:
' = (* :M i)」x^-1)) (4)
所有网格的编号为1至的正整数。
由于全局统一的网 格划分以及网格标识,使得分布在多个数据流中的数据在摘要 中影响了相同标识的网格密度,多路数据流网格密度计算空间 上保持全局一致。
1.3时间度量与多路融合
D-Stream[5]模型中的时间实际上是单独数据流中数据抵达 顺序编号。
在分布式多路数据流环境下,融合时拿到的是概要 信息,是无法对来自不同子数据流的数据进行顺序编号。
即使 在单独数据流中,如果数据不是按均匀的时间间隔采集,这种衰 退方法也无法准确反映聚类随着时间的演化。
简单的相加可能 导致不同子数据流中的两组数据,在时间上先到达的数据,对网 格密度的贡献大于时间上后到达的数据。
本文采用实际时间作为聚类演化的依据,统一各路数据流 的时间,从而使多路数据流融合成为可能。
总共m路数据流, 对于网格g,在当前时间刻度《的密度融合计算公式为:
D(g,)= X D(g,.)x A(,-(5)
i=1
根据式(5 )不同子数据流的网格密度根据其更新时间,计 算出当前时间的衰减后密度,相加得到多路数据流总的网格密 度。
不同数据流的数据点在融合时都以相同的时间度量衰减, 与同一子数据流内数据处理相同,分布在多个路数据流中的数 据衰退情况与同一个数据流中的衰退一致。
时间衰退的全局一 致与空间密度计算的全局一致,确保本文方法具有很好的可扩 展性,理论上其工作性能不受数据采集终端数量限制。
1.4概要信息的在线维护
gndll s t为存储子数据流概要信息的链表,其成员为非空网 格的特征向量,按网格 '顺序排列。
由于引人时间衰退因子来 反映流中数据分布的演化,所有网格的密度都随着时间变化。
对 于没有新数据到来的网格g ,其任意时间的密度为:
D(g,0=D(g,〜)x A(-g(6)根据式(6),只需要知道其特征向量,即可计算出当前时刻 密度。
因此,没有必要不断更新gredlt中所有网格的特征向 量,只需根据式(3)更新新到达数据点所在网格即可。
这有效 提升了在线算法的时间效率。
如果新到达数据对应的网格当前是空的,则gredlt中不存 在该网格的特征向量,需要网格特征向量插人gridlist中响应位 置。
随着时间推移,g n d l t中的网格会越来越多,在高维数据空 间,进行较高精度的网格划分时,g r i d s中网格数量上限很大。
gredit中网格过多,会降低在线算法的时间空间效率,同时 增加与远端离线部分的通信开销。
因此有必要定期删除过期 网格。
过期网格是这样的网格:这些网格在很久之前曾经有数据 到达,但当前相当一段时间无数据点到达。
随着时间推移,这些 网格密度衰退,以至于远小于致密网格的阈值。
无论考察其时 间相关性还是密度值的大小,这类网格对于当前时刻的数据分 布影响甚微,可以忽略不计。
为了避免这类网格带来的资源负 担,每次提交概要之前检查网格最后更新时间,距离当前时刻超 过阈值的视为过期网格删除。
当《。
足够大时,提交的概要信息 为真实统计信息的近似值,不影响聚类结果。
1.5离线聚类生成
对于融合多路数据流融合后的概要信息gridli-SUm,根据 式(5 )其每个网格的密度为当前时刻的密度,则当前d维空间所 有网格总重量等于所有n个非空网格的密度和:
W(t)=X D(g,,) (7)
i=1
由于任意子空间的网格密度可以通过d 维全空间投影得
58计算机应用与软件2016 年
到,因此gndl1S t-SUm提供了 D E N C O S[14]发现任意子空间聚类的
完整信息,S的任一 p维子空间^每个网格的平均密度为:
D p=吾(8)
如果一个p维致密网格的密度不小于该子空间阈值,则认
定为致密网格,阈值为:
w_ V (9)
7 update the characteristic vector of g ;
8 if t mod gap == 0 then
9 remove grids out of date;
10 commit gridlist ;
11 end if
12 end while
13 end_procedure
2.2离线算法
//offline clusters with it
根据式(4)可以得到每一个网格W对应的频繁模式向量表
示i? = (1,2,..,〜),其中%与[----对应,为第*维上第[(,- M m,),,] +1个间隔区间。
D E N C O S根据以 上信息,找出所有子空间聚类并输出。
多路数据流概要信息在离线部分被融合,gndli-s m存储 多路数据流融合后的概要信息。
融合的过程遍历每一个子数据 流提交的概要信息,求出每个网格总的密度。
离线部分算法 如下:
1.6确定g耶及<0的策略
在线部分按周期删除过期网格并提交概要信息。
即取 值的约束条件包括离线部分聚类的速度和网格密度衰退的速 度。
周期过短,频繁地提交并聚类运算,造成过多的资源负担, 而实际聚类又没有明显变化因而没有意义;周期过长,则可能无 法捕捉数据流分布的演进。
由式(9)可知,d维满空间的阈值最小,且维度数相差1的子空间阈值间存在V音关系。
可以认为一个没有新数据到达的 网格其密度衰退V倍,即是数据分布发生明显改变的关键时间 点。
则:1 procedure DEN-Stream-offline //input d, k, a
2 gridlist-sum = grid-partition ;
3 for each substream
4 for each member vector g of gridlist
5 if g not in gridlist-sum then insert g to gridlist-sum;
6 translate grid to vector presentation ;
7 update the characteristic vector of g in gridlist-sum ;
8 end for
9 end for
10 Compute the total weight W of all grid in gridlist-sum ;
11 call method DENCOS( d,k, W,a, gridlist-sum);
人g a p二 k(10)用V作为基准来决定周期的另一个好处是,随着V增大,网格衰退的和离线计算两个约束条件都变慢,反之都变快,便于决 定周期取值。
确定过期网格是为了避免g d l i t随着时间单调递增带来 的开销负担,其约束条件主要是数据采集终端资源,以及过期网 格的密度衰退至足够小,以至不对聚类结果造成影响。
因此在 终端资源允许的情况下应取值尽量大,以满足:
«»》lnA(T)(1)
12 end_procedure
根据聚类d e n c o s[14]模型,需要将m指代的网格转换为d 维向量描述作为后期挖掘的频繁项,网格的密度将会在聚类生 成过程中作为网格向量的频繁计数。
在开始聚类过程之前,需要计算g d l i-s m中所有网格的 密度之和,亦即总的“重量”W,结合用户指定的参数a [14], D E N C O S子空间聚类过程中的密度阈值得以确定。
3测试评估与分析
2分布式数据流聚类算法设计
2.1在线算法
除待处理的数据流外,在线部分的算法需要用户提供若干 参数,包括数据流的维数d以及划分网格需要的参数V和I,用 以建立网格结构。
为一个向量,依次代表每个维度取值范围,在网格划分过程中将每个维度划分为等长的V个间隔。
gndli 为存储非空网格特征向量列表,存储数据在整个网格空间分布 的概要信息,初始为空。
数据流中新的数据* = (*1*2,…,d)到达,首先计算其对应的密度网格g■的m。
如果之前没有数据 到达该网格或该网格数据由于过于陈旧被清除,则需要向 g r d l i中插人该网格的特征向量,否则直接更新该网格特征向 量。
在线部分以g p为时间周期,移除过期网格,提交g d l i至 离线部分,离线部分依据多路数据流的概要信息生成类。
在线 部分算法如下:
1 procedure DEN-Stream-online //input d, k, L
2 gridlist = grid-partition ;
3 while data stream is active do
4 read record x =(x!,X〗,•…,X d);
5 compute the id of density grid g which contains x ;
6 if g not in gridlist then insert g to gridlist;3.1测试数据集
为了验证方法反映数据分布随着时间演进的性能,采用合 成二维数据集D S1,所有16 000个数据点均匀分布在x轴100 ~ 900之间,轴440 ~ 600之间,长800,宽220。
数据集包含每个 数据点到达时刻心系,时序上*=100处数据最先到达,数据点 以均匀的速率在时间T内从* = 100开始匀速移动至*=900覆 盖整个区域。
在后续验证方法效率和形成概要规模时,采用从 加州大学欧文分校提供的用于机器学习的数据库(1!吨://^- /ml/)选取的真实数据集 DS2。
3.2实验结果与分析
(1)衰退与演进
为了验证分布式多路数据流环境下正确反映数据分布演进 的能力,将D S1分为不均等三路数据流,数据点比例为5 ::1。
数据点在各自子数据流中的到达时间为D S1中到达时刻相同,即每个子数据流中数据点到达不均匀,速率不相等。
在数据持 续时间r内,四个不同时刻输出的聚类结果如图1所示。
可以 看出,方法任意时刻的聚类输出能够随着数据分布规律的变化 演进,反映当前时刻及最近一段时间内到达数据的分布规律,而 较早到达的数据随着时间推移衰退殆尽,不影响当前聚类效果。
第7期李长路等:DEN-Stream:—种分布式数据流聚类方法59
图1不同时刻聚类结果的演进类的网格,而早前聚类网格作为过期网格被删除,在线算法的时 间、空间开销恢复稳定。
400 g即之后本文算法比对比算法时间 效率高85%〜208%。
对比算法在每次数据流聚类迁移之后时间开销就会经历一 次增长。
原因在于按照密度阈值拋弃过期网格,在较高维度空 间需要更长的时间。
高维数据空间存在大量的空白网格,仅少 数网格存在数据,聚类区域的密度会远大于整个高维空间的平 均密度。
因此,即使没有新的数据点到达,聚类区域网格的密度 要衰减到平均密度以下也是一个漫长的过程。
在概要信息中保 留旧聚类网格不仅降低在线算法的效率,增加开销,还会在当前 时间输出早期聚类,形成错误聚类结果。
图2反映了不同衰减因子下较早到达的数据对聚类结果的影响。
选择^ ^时刻,即所有数据完全到达时刻,分别选择四 个不同的衰退因子取值。
聚类结果表明方法能够在多路环境下 正确反映较早数据及其分布规律在聚类结果中的渐进衰退。
衰 退因子越小,衰退越迅速。
图2不同衰退因子下历史聚类的衰退
(2)在线效率
从数据集DS2随机选取一个5维空间,共60 000数据点的 数据集,使其按时间顺序均匀到达,形成一个稳定数据流。
分别 用本文方法在线算法和D-Steam[5]算法的在线算法处理该数据 流,两种算法都在每个在线周期内吸收10个数据点,维护在线 概要并提交。
对比两种算法处理每个g a p内数据所需时间如图 3所示。
图3在线算法时间效率对比
由图3可知,两个算法在启动阶段,由于要不断向空的概要 信息中插入新的网格,会导致较大的时间开销,之后逐渐趋于稳 定。
本文算法在第10个g a和第470个g a附近有数次时间 开销的峰值,原因在于此时数据分布随着时间发生迁移,生成的 聚类发生明显改变。
这个过程中新旧聚类的网格同时存在于概 要信息中,增加了在线算法的时间空间开销。
聚类迁移完成,数 据分布稳定在新的聚类区域后,本算法概要信息中只存在新聚
(3)概要规模
与在线算法时间效率对比相同的实验相同方法,对比两个 算法在每个g a形成的概要信息规模。
如图4所示,实验结果 与时间效率对比实验的结果相符。
本文算法由于及时拋弃过期 网格,能够在每次数据分布改变之后迅速将概要信息规模恢复 至合理范围,压缩需要通信的概要规模73. 5%〜82. 1%,节约 通信带宽。
而对比算法D-S t e m在相当长时间内不能拋弃过 期网格,在数据分布改变数次之后仍保留最早期的概要网格,导 致概要信息不断累积,造成资源浪费的同时引入早期聚类结果,不能正确反映数据分布随时间的演进。
4结语
本文提出的分布式数据流聚类方法,采用全局统一的网格划分和密度衰退,使得多路数据流概要信息融合的过程简洁、意义明确、准确性高。
通过适当的过期网格拋弃策略将概要信息规模维持在合理水平,提高了在线算法运行的时间、空间效率并降低概要信息提交过程中的通信开销。
尤其在高维数据流处理过程中,本文算法与对比算法相比,优势更加明显。
实验表明,本算法能在分布式多路数据流环境下找出正确聚类,并根据数据分布随时间的迁移,演进聚类结果;同时,本文算法具有更高的在线效率和更小的概要规模以节省带宽资源。
参考文献
[1 ]张建朋,陈福才,李邵梅,等.基于仿射传播的进化数据流在线聚类
算法[J ] •模式识别与人工智能,21,27 (5) :43 - 41.
[2 ]郭昆,张岐山.基于灰关联分析的多数据流聚类[J].模式识别与
人工智能,2011,24(6) :69 -775.
[3 ] Aggarwal C C , Han J, Wang J, et al. A framework for clustering evolving
data streams [ C ]//I^roceedings of the 29th international conference on
Very large data bases-'Volume 29. VLDB Endowment,2003 :1 -92.
(下转第63页
)
第7期李晔锋等:HCLOPE :—种处理分类数据的优化层次聚类算法
63
4结语
本文提出了一种处理分类数据的优化层次聚类算法
H C L O P E 。
它不但扩展了 C L O P E 算法以支持聚簇合并操作,而 且引入了无向图的结构以实现多个聚簇的同时合并。
实验结果 显示,H C L O P E 能够产生稳定的聚类结果,并且聚类的收益值显 著高于C L O P E ,从而获得更好的聚类质量。
但是H C L O P E 算法 的运行速度不如C L O P E 。
未来的工作将与并行技术结合,如使 用Hadoop 框架或者多核技术,以期提高算法的运行速度。
参考文献
[1 ] He Z Y , Xu X F , Deng SC. A cluster ensemble method for clustering
categorical data [ J ]. Information Fusion, 2005,6(2) :143 -151.[2 ] Gibson D, Kleiberg J, Raghavan P. Clustering categorical data : an
approach based on dynamic system s[C]//Proc. of VLDB’98,1998: 311 -323.
[3 ] Guha S, Rastogi R, Shim K. ROCK : a robust clustering algorithm for
图3 C L O P E 与H C L O P E 的稳定性比较
最后比较C L O P E 和H C L O P E 产生的聚类中纯度(purity )和 聚簇数目(cluster no .)的值。
聚类的纯度计算方法为取每个聚 簇中可食用蘑菇和有毒蘑菇的最大值相加,所得的值越大聚类 质量越好。
图4的实验结果显示,当r >2. 8时,C L O P E 和 H C L O P E 的纯度均到达事务的总数8124,并且聚簇的数目稳定
保持为23。
在其他情况下,H C L O P E 要略微优于C L O P E 。
表1 C L O P E 与H C L O P E 产生的收益值比较
r
CLOPE HCLOPE r CLOPE HCLOPE 1.0745.64731791.9966 2.6 2.2697 2.52421.2343.3131731.0381 2.80.9636 1.24291.4149.1631300.6443 3.00.47840.61411.668.7164123.7143 3.20.23750.30341.841.950150.9582 3.40.10650.14992.020.614021.7069 3.60.05290.07412.29.438610.4227 3.80.02620.03662.4 5.1001 5.1279 4.00.01410.0181
categorical attributes [ C ]//Proc. ofICDE ,99, 1999 :512 - 521.[4 ] Wang K, Xu C, Liu B. Clustering transactions using large items [C ]//P roc. ofC IK M '9, 1999:483 -490.[5 ] He Z, Xu X, Deng S. Squeezer : an efficient algorithm for clustering categorical data [ J ]. Journal of Computer Science and Technology, 2002,17(5) :611 -624.[6 ] Yang Y, Guan S, You J. CLOPE : a fast a rithm for transactional data[ C ] Z/Proc. of KDD ’ 02 , 2002 :682 —687.[7 ]
Ong K L, Li W Y, Ng W K. SCLOPE : An algorithm for clustering data streams of categorical attributes [ M ]. LCNS 3181 : Knowledge-Based Intelligent Information and Engineering Systems, Berlin, Heidelberg : Springer , 2004 : 209 - 218.
[8 ]
Yap P H, Ong K L. a-SCLOPE : clustering categorical streams using atribute selection [ M ]. LCNS 3682: Knowledge-Based Intelligent Information and Engineering Systems, Berlin Heidelberg : Springer,2005:929-935.[9] 李洁,高新波,焦李成.模糊CLOPE 算法及其参数优选[J ].控制 与决策,2004(19)1250-1254.
[10]
Hastie T, Tibshirani R, Friedman J. The elements of statistical learning : Data mining, inference, and prediction [ M ]. 2nd ed. Springer Verlag , 2009.
(上接第59页)
[4 ]
于彦伟,王沁,邝俊,等.一种基于密度的空间数据流在线聚类算法
[J ].自动化学报,2012,38(6) :051 -1059.
[5 ] Amini A ,Saboohi H ,Wah T Y. AMulti Density-Based Clustering Algo
rithm for Data Stream with Noise[C]]/Data Mining Workshops , IEEE International Conference on. IEEE, 2013 :1105 — 1112.
[6 ] Chen Y,Tu L. Density-based clustering for real-time stream data[ C ]]/
Proceedings of the 13th ACM SIG-KDD international conference on Knowledge discovery and data mining. ACM,2007 :133 - 142.
[7 ] Ren J,Cai B,Hu C. Clustering over data streams based on grid density
and index tree [ J ]. Journal of Convergence Information Technology,2011,6(1) :3 -93.
[8 ] Pan J. DS_CABOSFV clustering algorithm for high dimensional data
stream[ C ]]/2012 4th International Conference on Awareness Science and Technology (C A S T ),IEEE ,2012:16-19.[9 ] Zhang D, Tian H , Sang Y. A Clusterin
Grid for Stream D ata[C]]/Parallel and Distributed Computing ,Appli- cations and Technologies, International Conference on. II^EE ,2012 : 398 -403.[10] 于翔,印桂生,许宪东,等.一种基于区域划分的数据流子空间聚类
方法[J ].计算机研究与发展,2014( 1) :88 -95.
[11] Tu L,Chen Y. Stream data clustering based on grid density and attrac-
tion[J]. ACM Transactions on Knowledge Discovery from Data ( TK- DD) ,2009,3(3) :67 -176.
[12] Chairukwattana R,Kangkachit T ,Rakthanmanon T,et al. Efficient evo
lution-based clustering of high dimensional data streams with dimension projection [ C ] ]/Computer Science and Engineering Conference ((C- SEC) ,2013 International. IEEE ,2013 :185 - 190.
[13 ] Hou G B , Yao R X, Ren J D ,et al. Irregular Grid-based Clustering Over
High-Dimensional Data Streams[ C ]]/2010 First International Conference on Pervasive Computing Signal Processing and Applications ( PC- SPA) ,IEEE,2010:783 -786.
[14] Chu Y H, Huang J W,Chuang K T,et al. Density conscious subspace
clustering for high-dimensional data[ J ]. II l EE Transactions on Knowledge and Data Engineering,2010,22( 1) :16 -30.
收益
值。