在云计算环境下的海量数据挖掘与分析

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

在云计算环境下的海量数据挖掘与分析【王志春等人】

2011-04-12 17:31

1 引言

目前，人们正处于一个“无处不网、无时不网，人人上网、时时在线”的时代，图灵奖获得者吉姆·格雷（Jim Gray）认为，网络环境下每18个月产生的数据量等于过去几千年的数据量之和。目前互联网的数据具有海量增长、用户广泛、动态变化等特征。2010年，QQ同时在线的用户超过1亿人，淘宝一年交易次数比上年增长150%，视频服务Animoto在3天内通过Amazon将其服务能力迅速扩展至75万用户。

数据挖掘能够发现隐含在大规模数据中的知识，提高信息服务的质量。如伊朗事件中twitter快速传播假消息的识别、Amazon和淘宝网中商品关联关系分析，以及优酷网中视频个性化推荐等。海量数据挖掘在国家安全、国民经济和现代服务业中具有广泛应用，有助于提升网络环境下信息服务的质量，实现以人为本的信息服务。

从数据挖掘技术的发展历史看，随着互联网的蓬勃发展，数据的规模越来越大，从KB级发展到TB甚至PB级海量数据；数据挖掘的对象也变得越来越复杂，从数据库、到多媒体数据和复杂社会网络；数据挖掘的需求也从分类、聚类和关联到复杂的演化和预测分析；挖掘过程中的交互方式从单机的人机交互发展到现在社会网络群体的交互。这种发展给数据挖掘带来了巨大的挑战：对于网络环境下产生的TB级和PB级的复杂数据，需要有高效的海量数据挖掘算法；网络环境下大众的广泛参与，需要在数据挖掘算法中能够融入群体智慧；同时社会网络的迅速发展使得信息服务的个性化成为必然，要求能够满足即时组合的个性化挖掘服务。

云计算是一种基于互联网的、大众参与的计算模式，其计算资源（包括计算能力、存储能力、交互能力等）是动态、可伸缩、被虚拟化的，并以服务的方式提供 [1] 。具体表现在：云计算的动态和可伸缩的计算能力为高效海量数据挖掘带来可能性；云计算环境下大众参与的群体智能为研究集群体智慧的新的数据挖掘方法研究提供了环境；云计算的服务化特征使面向大众的数据挖掘成为可能。同时，云计算发展也离不开数据挖掘的支持，以搜索为例，基于云计算的搜索包括网页存储、搜索处理和前端交互三大部分。数据挖掘在这几部分中都有广泛应用，例如网页存储中网页去重、搜索处理中网页排序和前端交互中的查询建议，其中每部分都需要数据挖掘技术的支持。

因此，云计算为海量和复杂数据对象的数据挖掘提供了基础设施，为网络环境下面向大众的数据挖掘服务带来了机遇，同时也为数据挖掘研究提出了新的挑战性课题。

下面将对并行编程模型、基于并行编程模型高效海量数据挖掘算法，以及基于云计算的海量数据挖掘服务相关研究进行综述。

2 并行编程模型相关方法

为了使用户能够通过简单的开发来方便地达到并行计算的效果，研究人员提出了一系列的并行计算模型。并行计算模型在用户需求和底层的硬件系统之间搭建桥梁使

得并行算法的表示变得更加直观，对大规模数据的处理更加便捷。根据用户使用硬件环境的不同，并行编程模型又可以分为在多核机器、GPU计算、大型计算机以及计算机集群上的多种类型。目前比较常用的并行编程接口和模型包括：

pThread接口[2]。pThread是在类Unix系统上进行多线程编程的通用API，为用户提供了一系列对线程进行创建、管理和各类操作的函数，使用户能够方便地编写多线程程序。

MPI模型[3]。MPI的全称为消息传递接口（Message Passing Interface），它为用户提供了一系列的接口，使用户利用消息传递的方式来建立进程间的通信机制，从而方便地对各种算法进行并行实现。

MapReduce模型[4]。MapReduce模型是由谷歌公司提出的并行编程框架，它首先为用户提供分布式的文件系统，使用户能方便地处理大规模数据；然后将所有的程序运算抽象为Map和Reduce两个基本操作，在Map阶段模型将问题分解为更小规模的问题，并在集群的不同节点上执行，在Reduce阶段将结果归并汇总。MapReduce是一个简单，但是非常有效的并行编程模型。

Pregel模型[5]。Pregel同样是由谷歌公司提出的专门针对图算法的编程模型，能够为大规模数据的图算法提供并行支持。一个典型的Pregel计算过程将在图上进行一系列的超级步骤（SuperSteps），在每个超级步骤中，所有顶点的计算都并行地执行用户定义的同一个函数，并通过一个“投票”机制来决定程序是否停止。

CUDA模型①。CUDA是由NVIDIA公司提出的一个基于GPU的并行计算模型。由于GPU 在设计需求上与普通CPU不同，GPU通常被设计为能较慢地执行许多并发的线程，而不是较快的连续执行多个线程，这使得GPU在并行计算上有先天的优势。CUDA为用户提供了利用GPU计算的各种接口，使程序员能够像在普通电脑上进行CPU编程那样进行GPU程序的编写。

此外还有OpenMP、PVM、OpenCL等各种并行编程模型和方法。这些并行编程和方法一般都提供了主流编程语言的实现，从而使得用户能根据自身编程习惯来选用。

另一方面，随着云计算的不断推广，还出现了各种商用的并行计算/云计算平台，为用户提供并行计算服务。这其中比较著名的包括微软的Azure平台、Amazon公司的EC2平台、IBM公司的蓝云平台、谷歌公司的Google App Engine等。各大IT公司也纷纷开发自己的并行计算模型/框架作为自身技术服务的基本平台，这使得并行计算技术得到了更加快速的发展。

3 基于并行编程模型高效海量数据挖掘算法研究

为了实现海量数据上的数据挖掘，大量分布式并行数据挖掘算法被提出。Bhaduri et al[6]整理了一个十分详尽的并行数据挖掘算法文献目录，包含了关联规则学习、分类、聚类、流数据挖掘四大类分布式数据挖掘算法，同时还包括分布式系统、隐私保护等相关的研究工作。

MapReduce并行编程模型具有强大的处理大规模数据的能力，因而是海量数据挖掘的理想编程平台。数据挖掘算法通常需要遍历训练数据获得相关的统计信息，用于求解或优化模型参数。在大规模数据上进行频繁的数据访问需要耗费大量运算时间。为了提高算法效率，斯坦福大学Chu et al[7]提出了一种适用于大量机器学习算法的通用并行编程方法。通过对经典的机器学习算法进行分析可以发现，算法学习过程中的运算都能转化为若干在训练数据集上的求和操作；求和操作可以独立地在不同数据子集上进行，因此很容易在MapReduce编程平台上实现并行化执行。将大规模的数据集分割为若干子集分配给多个Mapper节点，在Mapper节点上分别执行各种求和操作得到中间结果，最后通过Reduce节点将求和结果合并，实现学习算法的并行执行。在该框架下，Chu et al实现了十种经典的数据挖掘算法，包括线性回归、朴素贝叶斯、神经网络、主成分分析和支持向量机等，相关成果在NIPS 2006会议上发表。

Ranger et al[8]提出了一个基于MapReduce的应用程序编程接口Phoenix，支持多核和多处理器系统环境下的并行程序设计。Phoenix能够进行缓存管理、错误恢复和并发管理。他们使用Phoenix实现了K-Means、主成分分析和线性回归三种数据挖掘算法。

Gillick et al[9]对单程学习（Single-pass）、迭代学习（Iterative Learning）和基于查询的学习（Query-based Learning）三类机器学习算法在MapReduce框架下的性能分别做了评测。他们对并行学习算法涉及到的如何在计算节点之间的共享数据、如何处理分布式存储数据等问题进行了研究。

Mahout①是APS（Apache Software Foundation）旗下的一个开源数据挖掘项目，通过使用Apache Hadoop库，可以实现大规模数据上的并行数据挖掘，包括分类、聚类、频繁模式挖掘、回归、降维等算法，目前已经发布了四个版本。

4 基于云计算的海量数据挖掘服务研究

云计算除了给用户提供通用的并行编程模型和大规模数据处理能力之外，另一个重要的特点是为用户提供开放的计算服务平台。在数据挖掘方向，现在也有一系列的系统被开发出来，面向公众提供数据挖掘服务云计算平台。

Talia et al[10]提出可以从四个层次提供云计算数据挖掘服务：底层为组成数据挖掘算法的基本步骤；第二层为单独的数据挖掘服务，例如分类、聚类等；第三层为分布式的数据挖掘模式，例如并行分类、聚合式机器学习等；第四层为之前三层元素构成的完整的数据挖掘应用。在此设计基础上，他们设计了基于云计算的数据挖掘开放服务框架，并开发了一系列的数据挖掘服务系统，例如Weka4WS、Knowledge Grid、Mobile Data Mining Services、Mining@home等，用户可以利用图形界面定义自己的数据挖掘工作流，然后在平台上执行。

PDMiner[11]是由中国科学院计算技术研究所开发的基于Hadoop的并行分布式数据挖掘平台，该系统现在已经用于中国移动通信企业TB级实际数据的挖掘。PDMiner 提供了一系列并行挖掘算法和ETL操作组件，开发的ETL算法绝大多数达到了线性