流数据处理技术的概述0911

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第一点:流数据处理技术的概述,

什么是流处理技术?

传统数据处理模型

数据流处理模型

1、数据流处理模型和传统数据处理模型的比较

如果利用传统技术进行数据处理,必须将数据全部存储到介质(如关系数据库)中,然后通过提交DML语句访问存储介质来获取查询结果。但是,当数据规模宏大且到达速度很快时,因执行查询操作需要大量的I/O交换,效率低下,往往难以满足实时性要求。相反,数据流处理技术可以不保存整个数据集,仅维护一个远小于其规模的概要数据结构,从而能够常驻内存。

2、基于数据流的处理技术通常包含两部分算法:

一部分监控流中的数据,更新概要数据结构;

另一部分响应用户查询请求,返回近似查询结果。

用什么方法?

1、数据流聚类算法

单遍扫描算法和进化分析算法

1.1单遍扫描算法把数据流聚类看作是对数据库单遍扫描的处理过程。

传统的数据聚类算法,如k-means和k-medians,被扩展到数据流环境下,并假设数据对象以数据块的方式到达。该类算法通常基于分而治之的策略,从而在小空间上获取常数因子的近似结果。如:1)采用LOCALSEARCH的子过程,在每个数据块到达时产生该块数据的簇中心。2)VFKM算法对k-means进行了扩展,并保证其产生的模型与通过无限次数据获取所产生的模型不具有太大差别;

3)Zhou等人提出一种用于数据流核密度估计的单遍扫描算法,可基于核密度估计产生聚类结果。4)Nam等人提出了一种基于统计网格的方法用于单遍扫描的数据聚类。5)此外,还有Beringer等人研究了对并行数据流的单遍扫描聚类算法。

1.2由于单遍扫描算法无法满足具有进化特征的数据流的聚类分析需求,研究者开始提出一系列进化分析算法。进化分析算法把数据流的行为看作是一个随时间不断变化过程。1)Dail等人提出了一种对多条数据流进行聚类的通用框架COD。该方法可动态地对多条数据流进行聚类,并可支持多种数据挖掘的请求。

2)Yang考虑了一种新的多数据流聚类问题,在该问题中,各个数据流被看作是一个维度不断增长的向量。两条数据流间的相似性采用加权距离进行度量,并且一种增量的聚类算法被用于产生数据流的聚类结果。3)Aggarwal等人提出了一种对数据流进行投影聚类的方法HPStream。其主要贡献在于引入了一个衰退簇结构和对数据流进行投影聚类的思想。4)Zhou等人提出一个用于跟踪滑动窗口内的簇的方法SWClustering。区别于该项工作,本文主要将讨论据伪和纳真误差滑动窗口模型中的聚类问题,并推广到一个更普遍的N-n滑动窗口模型。

5)Babcock等人基于前人的工作,从理论角度对滑动窗口的聚类问题进行了研究。区别于该工作从理论上对聚类效果进行分析,本文主要基于滑动窗口对数据流中簇的进化过程进行挖掘。6)Cao等人提出了一种基于密度的聚类算法Denstream!咒}可挖掘在有噪声环境下衰减窗口内数据流中任意形状的簇。7)朱蔚恒等人提出一种基于空间分割的聚类方法用于挖掘具有任意形状的簇。然而,这些挖掘任意形状簇的方法并不适用于滑动窗口。

(1)据伪和纳真误差滑动窗口模型中的聚类问题,并推广到一个更普遍的N-n滑动窗口模型。

(2)基于滑动窗口对数据流中簇的进化过程进行挖掘。

2、在实际应用中,人们往往比较关心最近一段时间内数据流的分布状况,

滑动窗口模型可被用来更好地获取当前数据流的特征。

在基于界标窗口的Clustream中,微簇的半径随界标窗口的增长不断增大。由于没有在线淘汰“老”元组,因而只有一个微簇生成。若采用基于滑动窗口的聚类,及时地淘汰“老”元组,新到达的元组将形成两个微簇。若将Clustream 算法应用到滑动窗口环境下,需要在每个新元组到达时存储一次快照(snaPsllot),这样巨大的处理代价和存储开销,显然难以满足数据流实时在线处理的需要。如图

基于滑动窗口的聚类中微簇(Mc)的形成过程

3、数据流处理技术原型系统

由于是热点,近来不断出现了一些基于数据流处理模型的数据管理系统,这些系统面向不同的应用领域,设计了很好的系统架构,试图提供基于数据流处理模型的完整应用解决方案。与这些系统不同,本文的工作并不是设计和实现一个完整的基于数据流处理技术的管理系统,而是面向网络流量监测领域中的具体问题,采用数据流处理算法为网管人员提供一个有效的管理工具。

第2点:流数据处理系统在电信中应用前景的总结

1.数据流聚类分析

数据流环境下的聚类分析是当前数据库领域的一个研究热点。聚类挖掘就是把数据集合中的数据对象归为若干组,并使得组内对象的相似度尽可能的高而组间对象的相似度尽可能的低。数据聚类分析在图像处理、模式识别、空间数据分析、等领域有许多实际应用{48}。在数据流环境中,数据聚类同样是一种重要的、具有强大信息提取功能的数据压缩技术。如何进行滑动窗口内的数据流聚类分析、提高数据流聚类处理效率等都是数据流聚类分析研究中的几个基本问题。它们在电信网络中的入侵检测、网络流量监控、数据流挖掘系统实现等实际应用中都具有重要意义。

2.网络流量Top一N排序

电信网络质量的管理首先是流量的管理,由于Internet数据量呈现爆炸式的增长,以往对流量的管理只能是总流量的检测,并不能知道流量中的不同应用的变化情况,因此也不能针对不同的应用采取不同应对措施。尤其现在新的P2P应用的大量增加,网络流量的特性和以前也发生了很大的变化。网络的管理就必须从宏观的管理进一步深入到流量的内容上来。在应用了Netflow技术以后,网络管理员可以得到流量的抽样情况,然后对各种不同的应用进行多种纬度的排序,即所谓Top N排序问题。常见的方法是将这些数据存储下来以后进行离线分析,得出最后的结果。这样往往不能实时地反映网络的流量变化,而且也不能选取任意的时间段进行排序比较,只能使用预先定义的排序方法进行分析。

采用数据流的处理技术,本文试图寻找一种能够实时地反映数据变化的算法,在任意给

相关文档
最新文档