分布式数据挖掘研究

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

41摘要：分布式数据挖掘是一种数据挖掘技术，通过这一技
术可以整合局部而获得全局知识，提高决策水平。

本文基于大
量的文献资料，对分布式数据挖掘技术的定义、框架，以及现
有的分布式数据挖掘系统分类进行了分析。

然后，探讨了分布
式数据挖掘系统应用过程表现出来的共性问题，并提出了相应
的解决措施，以提高分布式数据挖掘质量，充分挖掘网络空间
内分布式数据的价值。

关键词：系统分析；共性问题；定义；框架；解决措施
近年来，随着信息技术、通信技术及网络技术的不断发
展，广电网、移动网、互联网等网络和相关的衍生业务快速拓
展，形成了大量的基于网络空间的分布式数据。

这些数据中蕴
藏着巨大的价值，可为决策提供依据。

但是受网络平台兼容
性、易购性等特征的影响，集中式数据挖掘已经难以适应分布
式计算环境，这种情况下诞生了分布式数据挖掘技术，用于挖
掘分布式数据价值。

由于分布式数据挖掘技术刚刚兴起，很多
人对这一技术的应用和系统问题了解不多，所以对分布式数据
挖掘系统及其共性问题、解决方法进行分析是必要的，利于深
化对分布式数据挖掘技术的应用，提高分布式数据挖掘质量。

1、分布式数据挖掘的定义与框架
1.1 定义
分布式数据网挖掘这一词汇出现较早，直至20世纪90年代
后期才被人们所关注，并将其定义为基于网络空间的分布式计算
环境的数据挖掘。

除了这一种解读外，人们还普遍认为分布式数
据挖掘是利用分布式计算方式对网络空间内的分布式数据进行挖
掘，通过局部知识进行整合来获得全局知识，进而挖掘分布式数
据的价值，为决策提供可靠的依据，确保决策质量。

数据挖掘质
量的高低，主要取决于局部知识整合方法和局部知识质量，在局
部知识质量较高情况下必然可以保证数据挖掘质量。

1.2 框架
通常情况下，分布式数据挖掘遵循“全局分布、局部集中”
的挖掘原则，以站点间的纯粹独立挖掘方式进行，但是并不都是
独立挖掘，也可以利用某些站点进行数据挖掘。

当网络空间中的
分布式数据挖掘研究
文／王建君
某个或某些站点的计算能力、储存能力、通信能力较强时，它
（它们）就可以汇集其它站点的数据，对其进行分布式数据挖
掘，得到整合的局部数据挖掘结果，再借助这一结果获取全局结
果。

具体情况如图1所示。

分布式数据挖掘中的数据主要来自于
分布式计算环境中的数据，此外也有部分集中数据。

无论数据来
源是什么，都可以将数据分散到各站点中，利用站点进行数据的
分布式挖掘，获得较高质量的数据挖掘结果。

2、分布式数据挖掘系统及分类
发展初期，分布式数据挖掘系统将系统内的数据集中起
来，构建一个临时数据集市，然后集中的进行数据挖掘。

这种
数据挖掘方式的保密性、安全性较高，但是易给网络通讯运行
造成一定困扰。

而且，它采用的数据挖掘方式以集中式挖掘为
主，虽然表面上是分布式数据挖掘，实质上却是集中式数据挖
掘。

为实现真正的分布式数据挖掘，引进国外先进技术，构筑
了分布式数据挖掘系统。

目前，国内分布式数据挖掘系统主要
有基于网络的分布式数据挖掘系统、基于元学习的分布式数据
挖掘系统、基于Multi-Agent的分布式数据挖掘系统。

2.1 基于网络的分布式数据挖掘系统
这一种分布式数据挖掘系统以互联网等现代网络为基础，具
备网络资源共享、协同工作、开放服务等特点，在分布式数据挖
掘中具备较高的协同性、可靠性，对保证数据挖掘质量有积极作
用。

特别是该种系统利用网络计算尽心分布式数据挖掘，使数据
挖掘性能得到有效的提高，利于提高数据资源的利用率。

2.2 基于元学习的分布式数据挖掘系统
这一种分布式数据挖掘系统以元学习为基础，通过元学
习与分布式数据挖掘系统的融合进一步优化了分布式数据挖掘
算法，可以对已有的局部知识进行多次挖掘，确保了数据挖掘
质量。

在这一系统的框架研究上，已经有了一些显著成果，如
Weka4GML框架。

2.3 基于Multi-Agent的分布式数据挖掘系统
这一种分布式数据挖掘系统以Multi-Agent系统为基础，通过
Multi-Agent的自治性充分保护了局部知识挖掘结果的私有性，利
于提高数据挖掘的自动化程度。

同时，可以减少用户参与，实现
多种算法协同挖掘，是一种高效的分布式数据挖掘技术。

2.4 基于CDM的分布式数据额挖掘系统
这一种分布式数据挖掘系统以CDM为基础，将待学习的函
数视作为一组基函数，允许各站点分布式数据源选择各自适合
的学习算法，是一种数据源独立挖掘的分布式挖掘方式。

进行
数据挖掘时，虽然各站点独立进行数据挖掘，但因为以全局知
识正确为基本前提，可以减少网络通信量。

3、分布式数据挖掘系统的共性问题及解决
3.1 共性问题
以上分布式数据挖掘系统的技术水平虽然较高，实际运
用中依然表现出了不少问题，主要体现在挖掘质量、挖掘效率图1 分布式数据挖掘框架
42
两个方面。

第一，挖掘质量问题。

进行分布式数据挖掘时，各个站点基本都是独立进行本站点分布式数据挖掘，对各个站点之间的数据内在语义联系考虑不足，形成了“分割式”挖掘方式，对全局的数据挖掘质量有一定不利影响。

为解决这一问题，应当加强各站点数据之间的语义距离研究，构建全局站点的分布式数据语义距离的复合量化体系，促使传统分布式数据挖掘方式转变，以便提高数据挖掘质量。

第二，挖掘效率问题。

受各个站点的负载、通信开销等因素影响，分布式数据挖掘效率会一定程度的降低。

对此，必须使各站点负载均衡、缩减通信开销，减少分布式数据挖掘的工作量和难度，提高挖掘效率。

3.2 解决方法3.2.1 技术路线
基于以上两个方面分析，为提高分布式数据挖掘质量和效率，提出将本体理论引入分布式数据挖掘系统，以各站点数据源间的语义距离度量为突破口，构建全局站点的分布式数据语义距离的复合量化体系，形成新的分布式数据挖掘系统的求解模型，得到优化分布式数据挖掘技术的目的。

具体路线如下：
第一步：利用本体对分布式数据挖掘系统中各站点间的数据源语义特征进行描述。

第二步：基于本体描述构建全局站点的分布式数据语义距离的复合量化体系。

第三步：根据体系得到度量结果，然后数据源进行分组，并建立各组的数据挖掘模型、负载均衡机制，形成层次化的数据挖掘方式。

第四步：基于以上三步，建立新的分布式数据挖掘系统。

3.2.2 相关分析（1）本体作用
通过本体与分布式数据挖掘系统的融合，建立新的分布式数据挖掘系统，解决以往诸多分布式数据挖掘系统的共性问题。

在这里，本体是一种语义网，可以作为数据源语义距离度量的技术。

在分布式数据挖掘系统中使用本体，主要用于元数据本体、领域知识本体、背景知识本体等方面语义距离描述，产生了巨大作用。

主要作用包括：第一，为领域知识结构理顺提供了支持，为知识表述创造了良好条件；第二，可以作为人与组织间的通信词汇，便于实现知识共享；第三，为不同建模方法、软件工具的翻译提供了技术支持，利于实现不同系统的集成和相互操作。

（2）数据挖掘后处理方法
本体与分布式数据挖掘系统融合后形成新的分布式数据挖掘系统，这一系统通过本体描述挖掘任务的领域背景知识，从海量信息中遴选出有价值的信息，并按照一定的规则进行数据挖掘，有效解决了数据挖掘后的冗余规则删除问题。

具体应用中，先利用知识库使用户知识、目标进行规范化处理，从整体上反映知识概貌。

然后，利用用户期望阐明用户对发现规则的先验知识，最后通过筛选器对规则集进行筛选，挖掘其中有价值的规则。

（3）自动构造问题
新的分布式数据挖掘系统应用，有效解决了以往分布式数据挖掘系统的共性问题，提高了分布式数据挖掘质量和效率，但是工作中也表现出了一些问题。

在给定知识发现过程的输入类型与输出类型条件下，发掘知识发现工作流组成存在一定的自动构造问题，给数据挖掘造成了困扰。

为此，需要采用有效的措施解决这一问题。

解决措施：第一，利用知识发现本体重新定义知识类
型和分布式数据挖掘算法的概念。

第二，通过任务本体和领域本体描述知识发现本体，使知识发现工作流组成规范化。

这种解决方法的核心思想是利用知识发现本体所提供的规范化概念解决工作流组成的构造问题，进而为决策提供依据。

4、分布式数据挖掘算法及分类
目前，国内有较多的数据挖掘算法，视角不同，数据挖掘算法也会不同。

按照发现的知识种类划分，分布式数据挖掘算法有关联规则发现、数据聚类、分类模型知识发现等，其中关联规则在分布式数据挖掘中的应用比较广泛。

按照挖掘数据库种类划分，分布式数据挖掘算法有空间数据库、遗留数据库、文本数据库、关系型等；按照数据挖掘方法划分，分布式数据挖掘算法有统计分析、神经网络等，其中统计分析应用较多。

神经网络是一种新的分布式数据挖掘算法，以神经网络技术为基础，是当前分布式数据挖掘算法研究的主要方向。

由于数据挖掘算法众多，具体工作中要结合实际情况选择适合的数据挖掘算法，适应分布式数据挖掘需求。

考虑到关联规则的应用实践最多，已经形成了丰富的工作经验，建议使用这一种数据挖掘算法。

5、结论
综上所述，本文首先分析了分布式数据挖掘技术的定义和框架，对现有的常用分布式数据挖掘系统及特点进行了探讨。

然后，针对分布式数据挖掘中表现出来的质量问题和效率问题，提出将本体理论应用于分布式数据挖掘系统中，构建新的分布式数据挖掘技术，解决以往问题，确保分布式数据挖掘质量和效率。

由于新建的分布式数据挖掘系统与过去相关系统不同，应用前需对它进行仿真实验，验证新系统的可行性，待确定具有较高的可靠性后才能正式的使用。

参考文献：
[1] 郭建伟，李瑛，杜丽萍，赵桂芬，蒋继娅.基于hadoop平台的分布式数据挖掘系统研究[J].中国科技信息，2013,(13)：81－83.[2] 何清，庄福振，曾立，赵卫中，谭庆.PDMiner：基于云计算的并行分布式数据挖掘工具平台[J].中国科学：信息科学，2014，(07)：871－885.
[3] 苏国强，刘万军.基于Web服务的分布式隐私保护数据挖掘框架研究[J].微计算机信息，2010,(240)：60－61＋208.
[4] 邓勇，王汝传，邓松.基于网格服务的分布式数据挖掘[J].计算机工程与应用，2010,(28)：6－9＋60.
[5] 陈磊，王鹏，董静宜，任超.基于云计算架构的分布式数据挖掘研究[J].成都信息工程学院学报，2010,(06)：577－579.
[6] 陈玉哲，赵明华，李军，赵书良.基于移动agent和数据挖掘标准的分布式数据挖掘系统[J].郑州大学学报(理学版)，2011,(01)：90－94＋113.
[7] 付弦，丁一.基于网格的分布式数据挖掘仿真研究[J].情报科学，2011,(05)：769－773.
[8] 刘英华，杨炳儒，马楠，曹丹阳.分布式隐私保护数据挖掘研究[J].计算机应用研究，2011,(10)：3606－3610.
[9] 葛新景，朱建明.基于博弈论的隐私保护分布式数据挖掘[J].计算机科学，2011,(11)：161－166.作者简介：
王建君，教育硕士（现代教育技术专业），讲师，吕梁学院汾阳师范分校，信息技术专业教师。