DEN-Stream:一种分布式数据流聚类方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第33卷第7期2016年7月
计算机应用与软件
Computer Applications and Software
Vol.33 No.7
Ju l.2016 DEN-S tream:—种分布式数据流聚类方法
李长路12王劲林2郭志川2韩锐2
>(中国科学院大学北京100190)
2 (中国科学院声学研究所国家网络新媒体工程技术研究中心北京100190)
摘要现有的数据流聚类方法很难兼顾数据稀疏和子空间聚类等高维数据难题,而分布式数据流对数据流聚类提出包括在线
计算效率、通信开销以及多路数据的融合等更多挑战。提出分布式数据流聚类方法,采用全局统一的网格划分和衰退时间以支持多
路数据流融合,并周期性检查和删除过期网格来控制概要规模。通过对多路高维数据流的一遍扫描,发现高维数据流子空间任意形 状的聚类,并反映数据分布随时间的演化。在线组件效率高开销低,概要信息简洁,通信代价低。实验表明,该方法能够对分布式数 据流正确聚类并演进,在线组件效率高,概要规模小。
关键词 分布式数据流子空间聚类网格聚类高维数据
中图分类号 TP3 文献标识码 A D0I:10.3969/j.issn. 1000-386x.2016.07.013
DEN-STREAM:A DISTRIBUTED DATA STREAM CLUSTERING METHOD
Li Changlu1,2 Wang Jinlin2Guo Zhichuan2Han Rui2
1( University of Chinese Academy of Sciences ,Beijing 100190, China)
2 {National Network New Media Engineering Research Center, Institute of A coustics, Chinese Academy of Sciences, Be
Abstract Curreet data stream clustering methods are diff i c u l t t o take into account the high-dimeesional data problems including data sparsity and subspace clustering,etc.,while the distributed data stream raises more challenges on data stream clustering,such as online computational efficiency,communication overhead a nd the integration of multi-channel data.The distributed data stream clustering method proposed in this paper uses globally uniform meshing and declining time t o support the inte the summary size by periodically checking and removing outdated grids.By scanning multi-channel high-dime method finds the clusters with arbitrary shapes in subspace of high-dimensional data stream,and they reflect the over time.The online component in t he paper has high efficiency and low overhead,succinct summary information and low communication cost.Experiment shows that the proposed method can correctly cluster the distributed data streams and evolve them,the efficiency of online component i s high,and the summary size i s small as well.
Keywords Distributed data stream Subspace clustering Grid-based clustering High-dimensional data
〇引言
网络技术、互联网应用生态以及包括智能终端、传感器等各 种数据采集设备的发展,使得分布式数据流作为一种广泛存在 的数据组织形式[12]。数据流聚类挖掘技术已经成为一个重要 研究领域,并广泛应用于电子商务、物理世界监测。数据流给传 统聚类技术带来的主要挑战包括快速的数据吞吐、潜在无限、数 据高维、只能执行一遍时序扫描、高效的存储需求以及反映数据 分布的时间演进等[1]。实际的数据流大都来自分布式环境下 的多个数据采集终端,除前述挑战外,还必须面临数据采集终端 的资源约束、多路数据流正确融合[2]以及持续的数据通信带来 的带宽占用。
著名的数据流聚类算法CluStream[3]首先提出的“在线一离 线”二元组件结构。其中在线部分负责扫描数据流,形成关于 数据分布的概要信息;离线部分采用基于距离的传统聚类算法k-means,利用在线部分提供概要信息挖掘产生聚类。CluStream 还提出了金字塔形时间衰减结构来优化历史概要数据的储存。然而CluStrem无力处理噪声、高维数据等数据流常见问题,同其他基于距离公式的方法一样,不能发现任意形状聚簇。后续 的研究普遍继承了和发展了二元组件结构和高效存储思想,并 针对性地发展了克服某些前述数据流难题,但很难同时解决现 有挑战。
基于密度['5]和网格[-/]的聚类方法普遍具有计算速度快,能够以便扫描数据发现任意形状聚类,因而成为数据流聚类 的一类基本方法。而子空间聚类[1°]也是数据流聚类的一个重 要课题。D-Stream[6]基于密度网格方法,理论上能够发现任意 形状任意数量的聚类,同时将新数据到达时概要信息更新复杂
收稿日期:2014 - 1- 03。国家科技支撑计划项目(2012BAH73 F01);国家高技术研究发展计划项目(2011AA01A102);中科院先导专 项课题(XDA06040301)。李长路,博士生,主研领域:数据挖掘,用户兴 趣建模。王劲林,研究员。郭志川,副研究员。韩锐,副研究员。