在端对端网络中的分布式数据挖掘_翻译
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
端对端网络中的数据挖掘
端对端网络正在很多应用中获得流行,例如文件分享,电子商务,和社交网络。很多这种应用处理大量的,分布的数据源,这些数据源可从数据挖掘中获益。P2P网络实际上很适合分布式数据挖掘,分布式数据挖掘在有着分布的数据,计算节点和用户的环境中处理数据分析的问题。本文提供了一个DDM的综述和P2P环境的算法,特别针对于那些以有限的通信代价使用计算基元执行数据分析的位置算法。作者同时描述了精确的和近似的位置P2P数据挖掘算法,这些算法以一个分散的和有效通信的方式工作。
局域网,端对端网络,移动和特定网络(自组网),和其他普遍的分布计算环境经常包含分布的数据和计算资源。在这样的网络中的数据挖掘自然地需要适当的对这些分布的资源以一种有效的,分散的方式进行利用。需要在节点,异步计算节点和完全中心控制间大量通信的数据挖掘算法很难在这样的分布的环境中具有伸缩性。此外,在多方应用中的隐私关注和资源问题经常指示其数据集收集在不同的站点进行分析,而不是将所有数据收集到中心站点。大多数现成的数据挖掘产品设计成以整体的集中地应用工作,下载相关的数据到中心的地点,运行数据挖掘操作,但是这种中心的方式在很多新兴的分布数据挖掘应用中并不能很好地工作。
DDM提供了一个解决这种使用分布资源的数据挖掘问题的替代的方法。DDM对于分布的数据,计算,通信和人力资源花费了仔细的注意力去在一个近乎理想的状态下使用它们。分布的P2P系统对于一个新的应用种类例如文件共享,协作电影和歌曲评分,电子商务和传感器网络监督,作为一个选择的解决方案而出现。DDM作为先进的数据数据驱动应用,正在这些领域中获得不断增长的关注
本文介绍了一个在P2P网络中使用DDM技术的成果的综述。我们的目标是表述一个在这个带有进一步发掘的指针的领域中的高水平的介绍。我们使用一些确切地和近似的DDM算法阐明理念。
P2P数据挖掘:为什么烦恼?
数据挖掘这个词一般意味着对大型数据库的分析从而发现有用的模式。在大多数商业的应用中,数据挖掘系统在大型集中的数据仓库上以一个垂直的应用运行。尽管这种模型对于很多应用有着很好的服务,包括客户关系管理和财务欺诈发掘,但是很多出现的领域例如
P2P系统,需要新的思考。高速的网络连接和便宜的数字存储和数据记录设备正在增强着P2P 网络的流行,例如E-Mule和Kazaa文件共享网络,这些网络都是基于没有中心服务器的点对点连接的。这种网络主持一个大量的广泛的变化的数据组,这些数据从不同的资源收集起来,并且分布在很大数量的对等点之间。如果集成的话,这个数据估计呈现一个对于值得挖掘的仓库,但是计算资源的限制,隐私问题等等使得很难去集成分布的数据到一个仓库中。
许多普及的Web服务使用Web挖掘应用去分析和追踪用户的点击流行为。现在,想象一下通过对连接到P2P网络的很多用户的浏览历史进行分析的Web站点访问者(而不是主机服务)做同样事情的客户站点Web挖掘。今天,站点访问者对于运行在服务器上的Web挖掘算法并没有直接的访问权限,但是一个客户端P2P的Web挖掘算法可以授权给访问者以点击流数据挖掘以便更高级的应用,例如P2P搜索,感兴趣的社区构成,和基于P2P的商业。图一展示了这样一种情况,在其中应用类别通过和其他端交换信息访问URLs符合的三个主题(电影,棒球和飓风)。明显的,在这样一个应用中,维持用户的隐私将是一个重要的问题,并且隐私保留的DDM领域可能提供一些解决方案。
尽管很多当前的P2P网络主要处理文件共享应用(例如,音乐和电影),在本文中,我们认
为P2P网络是一个大的,有着点对点连接的,无服务器的网络。这个对P2P数据挖掘开启了其他
潜在的应用领域,包括Manets,传感器网络,和无中央协调站点的联合数据库。这些应用领域在一心方面是不同的,但是所有都可能从可以在动态地,大伸缩的P2P网络中有效的操作的数据分析和挖掘算法中受益。
在P2P系统的计算环境与那些传统的中心数据挖掘算法的计算环境很不同。一些重要的需求包括:
可伸缩性。P2P系统的建模可以包括数亿的端点,这使得可伸缩性成为数据挖掘算法最重要的要求。计算和通信(带宽)的资源要求应该理想地从系统规模中独立,或者至少与一个随着系统规模的增长而缓慢的增长的函数关联。
有效性。因为在同一端的数据可以在计算期间改变,算法必须递增地工作并且应该在任何时候报到局部的,自组织的解决方案。
异步性。为P2P系统所开发的算法不应该取决于总体的同步;任何尝试去同步一个整个的网络将有可能因连接的潜在因素而失败,受带宽的限制,或节点故障。
分散。尽管一些P2P系统仍然对于不同的需求使用中心服务器,但是下一代的P2P算法可能需要
在无协调器下运行(服务器或路由器),并且在网络上计算结果,而不是将数据收集到一个单一的端上。
容错性。考虑到多端可以在任何给定的时间内离开或加入P2P系统,算法必须是足够强健,从而使得系统可以还原端故障和随后的数据丢失。
隐私。隐私是一个授权的因素,它可让用户贡献数据而不必害怕类似展现敏感信息的结果。这一点在有着多方应用中是特别重要的,例如为了威胁管理,社区构造和匹配服务的P2P网络监视。安全和信任。如同任何大的分布式系统,安全在P2P数据挖掘中是一个重要的问题,因为正在与其他端交换的信息可以增加一个对等端对于网络的易攻击性,例如服务拒绝或自身行为。信任管理也将可能是一个重要的问题,因为P2P系统的用户必须处理那些他们可能没有直接与其他交互的对等端。例如,在一个移动的车载自组织网络,一个车辆可能需要与一个临近的,每一分钟都在变化的车辆群进行通信。
我们现在把我们的注意力转到P2P数据挖掘的算法上,特别集中在本地算法上,它仅通过与临近的节点通信信息而执行计算。从一个计算的观点观察这些算法,我们区分其为确切地和近似的方法。
P2P数据挖掘的算法
一个P2P算法不大可能衡量,如果它需要每个节点与在一个网络中的所有其他节点通信的话。不幸的是,很多在P2P网络上的数据挖掘工作需要这个情况。例如,考虑一下,一个P2P网络在
其中的每个节点有一个数据元组而且我们的目标是去计算远程的矩阵(在一些公制的空间),在那里第(i,j)个入口代表着在第i个和第j个节点的元组存储的距离。
为了在一个确切的方式下计算这个,我们除了在每个可能的对等端对之间交换信息以前,很少有其他的选择。一个解决方案是保证每个节点与在一个网络中的其他节点对话并且计算相应的最小距离,但是这个方法在有着数亿的节点的P2P网络中是不可能衡量的。另一方面,我们可能能够粗略估计问题并且消除这个广泛的通信载入的需求。例如,我们可以仅标识有意义的远程的矩阵的入口并且开发一个有效地P2P算法,该算法不是必须要求在每对之间交换信息。很多其他问题是内在的可分解的并且不需要每个节点直接地与在同一个网络中的其他节点分享数据。
地点的概念在开发P2P算法中是非常重要的,因为它通过一个本地计算的集合,以一个可衡量的方式促进P2P数据挖掘。考虑由一个图代表的一个P2P网络,在该图中节点代表对等端,边
线代表它们之间的链接。令G=(V;E)是代表网络的图,其中,V表示节点的集合,E代表它们之间的连线。一个v∈V的顶点的α邻域是一个距离到G为α或者小于α的顶点的集合,表示为: