基于云计算的分布式数据挖掘平台架构.

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第26卷第5期 2011年lO月

北京信息科技大学学报

Journal of Beijing Information Science and Technology University

V01.26No.5 Oct.2011

文章编号:1674—6864(201105—0019—06

基于云计算的分布式数据挖掘平台架构

王小妮l’2,高学东2,倪晓明1

(1.北京信息科技大学理学院.北京100192;2.北京科技大学经济管理学院,北京100083

摘要:针对互联网上数量众多的网站带宽资源长期浪费或突发资源短缺、响应时间长、服务器宕机、网站受到黑客攻击等问题,提出了基于“云”的分布式web安全系统及基于云计算的分布式数据挖掘平台架构,并在此基础上提出了一种新型的分布式数据挖掘模式,利用云计算技术,可以方便地通过网络获取强大的计算能力和存储能力,将消耗大量资源的复杂计算通过网络路由优化和资源约束自适应策略分布到多节点上进行,然后通过组合不同数据站点上的局部数据模型,最终得到全局数据模型。

关键词:云计算;数据挖掘;分布式

中图分类号:TP 399文献标志码:A

Architecture of distributed data mining platform based on cloud computing WANG Xiao—nil 2,GAO Xue—don92,NI Xiao-min91

(1.School of Applied Science,Beijing Information Science and Technology University,Beijing 100192,China;

2.School of Economic and Management,University of Science and Technology Beijing。Beijing 100083,China

Abstract:In order to solve the problems with many sites on the Internet including long-term waste of bandwidth or unexpected shortage of resources,long response times,server downtime and hacker’S attacks a c loud—based distributed web security system and the architecture of distributed data mining platform based on cloud computing are put forward.A new distributed data mining model is then proposed.By cloud computing technology,computing power,and storage capacity can be obtained easily through networkand,and complex calculation consuming large amount of resources is distributed to multi-

node through the network routing

optimization

and self-adaptive strategy.Finally,through a combination of local data model on different sites,the global data model is obtained.

Key words:cloud computing platform;data mining;distributed

O 引言

随着物联网和无线互联网的飞速发展,传统的 IT信息管理系统和计算资源就显得越来越捉襟见肘,需要资源更加强大,灵活性、安全性更高,易于部署而且价格便宜的IT支持,这正是云计算…。云计算恰恰满足了这些需求,恰逢其时地出现了。云计算通常的定义是:云计算是一种商业计算模型,它将计算任务分布在大量计算

机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和各种软件服务。从这个定义上讲,可把云计算看成是存储云与计算云的有机结合。存储云对第三方用户公开存储接口,用户通过这个接口可以把数据存储到云。计算云通过并行计算和虚拟化技术给用户提供计算力心J。云计算的出现,给各个行业带来了

巨大的发展机遇。而当大家正在讨论各个应用领域如何向首先应用云计算的互联网行业学习云计算部署的时候,互联网行业有可能再一次走到云计算应用的前沿。

目前,用户访问的网站大多采用网站托管方式。一个典型的网站用户购买一台服务器,托管在一家 IDC(Intemet Data Center,互联网数据中心,然后根据用户的增长情况购买相应的带宽资源。网络托管流程如图1所示。

收稿日期:2011-09—13

基金项目:北京市教委科技发展计划面上项目(KM201110772018

作者简介:王小妮(1977一。女,山东威海人,讲师。博士研究生,主要从事信息系统安全技术、嵌入式系统研究。万方数据

北京信息科技大学学报第26卷

用户访问

Jr

网址

DNS域名解析

Jr

IP地址

服务器

图1网络托管流程

一个典型的IDC可托管几千个上述的典型网站。IDC为网站提供机房、带宽、管理维护众多的公司,是为互联网提供部分或者全部服务的载体,它的发展促成了互联网行业的整体性发展。国内的IDC 一般分为3类:一类是运营商级别的,如网通、电信, 以及最近的移动;一类是大型的商业IDC;还有一类是数量众多的小型商业IDC。由于IDC的商业模式是以出售机柜和带宽为主,所以,在这种情况下,每个网站用户都会面l临如下许多问题:

1多数情况下,购买的带宽都处于空闲状态, 或者是不饱和状态,造成了资源的浪费;

2在资源浪费的同时,少数情况下还表现出资源短缺,比如突发流量。互联网网络活动的不确定性,使得这种突发流量的情况普遍出现;

3随着网站服务用户数量的增加,用户的体验 (响应时间明显下降;

4一些常规的不可靠、不可用的问题,如服务器宕机、网站受到黑客攻击等。

文献[3]提到一种基于云计算架构的分布式数据挖掘,该框架能有效解决物联网分布式数据挖掘中所遇到的问题。但针对上述网站受到黑客攻击等情况没有相应的解决方案。为了解决以上问题,应用云计算平台的新一代互联网平台应运而生,并为广大的网站用户带来革命性的变化。

1云计算平台架构

云计算首要的任务当然是为企业提供所需要的 rr基础设施,但是难能可贵的是,一些超前的IT厂商适应了时代发展,推出了基于云计算平台的安全、 ERP等云服务,如图2所示。近年来,云计算已经成为一个泛概念,它几乎包含了rI'产业的各个方面。目前被公众普遍接受的云计算定义是:并行计算、分布式计算和网格计算的发展及商业化实现。它是虚拟化、效用计算、基础设施即服务(IaaS、平台即服务(PaaS、软件即服务(SaaS等概念经过各支持厂商和机构混合演进并跃升的结果。

图2电子商务技术支撑原理图

相关文档
最新文档