基于云计算的分布式数据挖掘平台架构.
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第26卷第5期 2011年lO月
北京信息科技大学学报
Journal of Beijing Information Science and Technology University
V01.26No.5 Oct.2011
文章编号:1674—6864(201105—0019—06
基于云计算的分布式数据挖掘平台架构
王小妮l’2,高学东2,倪晓明1
(1.北京信息科技大学理学院.北京100192;2.北京科技大学经济管理学院,北京100083
摘要:针对互联网上数量众多的网站带宽资源长期浪费或突发资源短缺、响应时间长、服务器宕机、网站受到黑客攻击等问题,提出了基于“云”的分布式web安全系统及基于云计算的分布式数据挖掘平台架构,并在此基础上提出了一种新型的分布式数据挖掘模式,利用云计算技术,可以方便地通过网络获取强大的计算能力和存储能力,将消耗大量资源的复杂计算通过网络路由优化和资源约束自适应策略分布到多节点上进行,然后通过组合不同数据站点上的局部数据模型,最终得到全局数据模型。
关键词:云计算;数据挖掘;分布式
中图分类号:TP 399文献标志码:A
Architecture of distributed data mining platform based on cloud computing WANG Xiao—nil 2,GAO Xue—don92,NI Xiao-min91
(1.School of Applied Science,Beijing Information Science and Technology University,Beijing 100192,China;
2.School of Economic and Management,University of Science and Technology Beijing。
Beijing 100083,China
Abstract:In order to solve the problems with many sites on the Internet including long-term waste of bandwidth or unexpected shortage of resources,long response times,server downtime and hacker’S attacks a c loud—based distributed web security system and the architecture of distributed data mining platform based on cloud computing are put forward.A new distributed data mining model is then proposed.By cloud computing technology,computing power,and storage capacity can be obtained easily through networkand,and complex calculation consuming large amount of resources is distributed to multi-
node through the network routing
optimization
and self-adaptive strategy.Finally,through a combination of local data model on different sites,the global data model is obtained.
Key words:cloud computing platform;data mining;distributed
O 引言
随着物联网和无线互联网的飞速发展,传统的 IT信息管理系统和计算资源就显得越来越捉襟见肘,需要资源更加强大,灵活性、安全性更高,易于部署而且价格便宜的IT支持,这正是云计算…。
云计算恰恰满足了这些需求,恰逢其时地出现了。
云计算通常的定义是:云计算是一种商业计算模型,它将计算任务分布在大量计算
机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和各种软件服务。
从这个定义上讲,可把云计算看成是存储云与计算云的有机结合。
存储云对第三方用户公开存储接口,用户通过这个接口可以把数据存储到云。
计算云通过并行计算和虚拟化技术给用户提供计算力心J。
云计算的出现,给各个行业带来了
巨大的发展机遇。
而当大家正在讨论各个应用领域如何向首先应用云计算的互联网行业学习云计算部署的时候,互联网行业有可能再一次走到云计算应用的前沿。
目前,用户访问的网站大多采用网站托管方式。
一个典型的网站用户购买一台服务器,托管在一家 IDC(Intemet Data Center,互联网数据中心,然后根据用户的增长情况购买相应的带宽资源。
网络托管流程如图1所示。
收稿日期:2011-09—13
基金项目:北京市教委科技发展计划面上项目(KM201110772018
作者简介:王小妮(1977一。
女,山东威海人,讲师。
博士研究生,主要从事信息系统安全技术、嵌入式系统研究。
万方数据
北京信息科技大学学报第26卷
用户访问
Jr
网址
上
DNS域名解析
Jr
IP地址
上
服务器
图1网络托管流程
一个典型的IDC可托管几千个上述的典型网站。
IDC为网站提供机房、带宽、管理维护众多的公司,是为互联网提供部分或者全部服务的载体,它的发展促成了互联网行业的整体性发展。
国内的IDC 一般分为3类:一类是运营商级别的,如网通、电信, 以及最近的移动;一类是大型的商业IDC;还有一类是数量众多的小型商业IDC。
由于IDC的商业模式是以出售机柜和带宽为主,所以,在这种情况下,每个网站用户都会面l临如下许多问题:
1多数情况下,购买的带宽都处于空闲状态, 或者是不饱和状态,造成了资源的浪费;
2在资源浪费的同时,少数情况下还表现出资源短缺,比如突发流量。
互联网网络活动的不确定性,使得这种突发流量的情况普遍出现;
3随着网站服务用户数量的增加,用户的体验 (响应时间明显下降;
4一些常规的不可靠、不可用的问题,如服务器宕机、网站受到黑客攻击等。
文献[3]提到一种基于云计算架构的分布式数据挖掘,该框架能有效解决物联网分布式数据挖掘中所遇到的问题。
但针对上述网站受到黑客攻击等情况没有相应的解决方案。
为了解决以上问题,应用云计算平台的新一代互联网平台应运而生,并为广大的网站用户带来革命性的变化。
1云计算平台架构
云计算首要的任务当然是为企业提供所需要的 rr基础设施,但是难能可贵的是,一些超前的IT厂商适应了时代发展,推出了基于云计算平台的安全、 ERP等云服务,如图2所示。
近年来,云计算已经成为一个泛概念,它几乎包含了rI'产业的各个方面。
目前被公众普遍接受的云计算定义是:并行计算、分布式计算和网格计算的发展及商业化实现。
它是虚拟化、效用计算、基础设施即服务(IaaS、平台即服务(PaaS、软件即服务(SaaS等概念经过各支持厂商和机构混合演进并跃升的结果。
图2电子商务技术支撑原理图
云计算的特点是:超大规模、虚拟化、高可靠性、通用性、高可扩展性、按需服务以及极其廉价。
Google云计算已经拥有100多万台服务器;云计算支持用户在任意位置、使用各种终端获取应用服务; “云”使用了数据多副本容错、计算节点同构可互换等措施来保障服务的高可靠性,使用云计算比使用本地计算机更可靠;云计算不针对特定的应用,在“云”的支撑下可以构造出千变万化的应用,同一个“云”可以同时支撑不同的应用运行;“云”的规模可以动态伸缩,满足应用和用户规模增长的需要; “云”是一个庞大的资源池,所有用户按需购买; “云”可以像自来水、电、煤气那样计费;由于“云”的特殊容错措施可以采用极其廉价的节点来构成。
“云”的自动化集中式管理使大量企业无需负担日益高昂的数据中心管理成本,“云”的通用性使资源的利用率较之传统系统大幅提升,因此用户可以充分享受“云”的低成本优势,只要花费几百美元、在几天时间内就能完成以前需要数万美元、数月时间
万方数据
第5期 td,妮等:基于云计算的分布式数据挖掘平台架构 2l
才能完成的任务。
图3所示为一个“云”的分布式
web安全系统,它由很多子系统和相关开源软件组
合而成。
图3云计算平台架构
2分布式数据挖掘平台架构
一种新型的云计算互联网平台能够从云计算的 2个参与主体(一个是云,一个是端来彻底改变原来的架构,为互联网网站和网站访问者带来更多的价值,如图4所示。
2.1内容分发网络实现云计算的技术流派
内容分发网络(content delivery network,CDN 尽可能避开互联网上有可能影响数据传输速度和稳定性的瓶颈和环节,把核心内容“分发”到互联网的核心节点,使内容传输更快、更稳定。
从商业模式上讲,CDN可以简单理解为带宽和机柜等资源的批发转零售过程。
换句话说,大型用户为了分散性能压力瓶颈而在互联网多数节点添置新资源的动作外包给了CDN厂商,后者从各地IDC以优惠价格批发了资源,然后以零售价格出售给前者,从而发挥了规模效益。
事实上也发挥了减少性能瓶颈,提高分发内容安全和稳定性的功效。
图4基于云计算的分布式数据挖掘平台架构
2.2DINS网关级的超级代理
新型云计算互联网平台通过DNS的智能切换来实现对众多网站进行的代理。
通过这样一个超级代理,可以从目前普遍采用的cs(client—server结构的两端分别采取智能手段,达到更快速、更智能、更优化的新一代基于云计算的互联网应用平台。
DNS 服务器集群采用云计算的方式构建。
2.3网站访问日志分析
各网站都会对访问进行日志记录,一条标准的日志如下:
“119.191.183.}一一l 02/Sep/2011:09:32:
3l+0800]”GET/bbs/DV_getcode.aspHTYP/1.1”
4041308”/bbs/reg.asp? action=apply””MoziUa/4.0f
compati ble;MSIE 6.0;Windows NT 5.1;SVI””一””一” 121.101.214.10180”
对应的格式内容为:“源地址一访问时间一访问方式一访问网址一返回类型一浏览器类型一操作系统一目的地址”。
把所有网站和用户的访问日志加人数据仓库, 对其进行数据挖掘,根据结果来决定网站的新部署或者内容分发的方式;从用户端,根据详细的用户行为,定制特定的查询和反馈模式,从而达到更加优化的效果。
2.4网站内容的动态分发
除了像新浪、搜狐、百度这样的超级网站,一般的网站都有一定的地域性,即它们服务的用户常常集中在某个区域。
这样.就能够根据用户的地域特
万方数据
22北京信息科技大学学报第26卷
征动态地分发到网站的新代理。
网站分发之后,在互联网上形成了云计算方式的部署,它在访问用户最近的地方响应访问,从而让用户在最短的时间内得到访问内容。
2.5根据用户行为的智能调度
采用数据仓库的形式对用户访问行为进行数据挖掘,在超级代理的架构中,根据用户行为特征重新进行数据索引,当用户进行访问时,就不需要像原来的方式那样根据DNS的解析而跳转多次才能到达目的网站H J。
用户访问的实际情况是:绝大多数的网民,经常访问的网站数量并不多;根据这些用户行为而构建的智能调度系统与智能网站分发系统相结合,可以为用户带来意想不到的良好用户体验,提升用户访问速度,提高网站的性能,提高网站的承载能力。
3分布式算法CDKmeans分析
3.1分布式算法的基本思想
Cloud Distributed K—means(CDKmeans是笔者提出的新的基于云计算平台的分布式算法。
分布式数据挖掘程序分为基于地域性路由优化、资源约束自适应策略、局部挖掘(位于各个服务器节点上、全局挖掘(位于提交任务的机器上。
算法1基于地域性路由优化算法
原来用户要访问网站信息需通过域名解析找到对应网站IP地址,然后通过互联网路由的方式访问到数据。
这种方式的缺点是寻找路径时间长,而且终端网站一旦繁忙,打开网页速度会很慢,网站服务器出现故障也影响实时访问。
而采用基于“云”的分布式web安全系统,会在云里事先做好网站内容镜像和在主要城市做备份。
用户访问网站信息不再是到终端网站IP对应的服务器中访问,而是直接到云里读取。
云平台会架在全国多个城市,把网站分发到哪个城市的服务器上能加快用户访问速度,缩短寻找路径的时间?这就需要对分发网站进行优化。
一般网站都有一定的地域性,即它们服务的用户常常集中在某个区域。
这样,就能根据用户的地域特征动态地分发到网站的新代理。
网站分发之后,在互联网上形成了云计算方式的部署,它在访问用户最近的地方响应访问,从而让用户在最短的时间内得到访问内容。
进行分发网站路由优化也会解决流程瓶颈,改变传统的遍历搜索模式,采用多轮迭代的方式并行运算,解决了复杂图的数据挖掘问题。
算法2资源约束自适应算法
根据CPU、内存资源缺乏和访问量过大等特点向附近节点转移数据,以优化聚类算法。
分布式计算模型的主要目标是给予一个用户指定的运行时间和收集数据等任务,其目的是使网络能够完成预设的运行时间和得到准确的结果;另一个目的是尽量减少在资源使用率低,如内存存满、CPU满负荷及访问量过大等情况下几个节点死亡或停止工作而导致的精确度损失”]。
表1列出了资源约束自适应中使用的符号及作用。
表1资源约束自适应符号
变量作用
lb
ub
memory
X..crit—.threshold
cpu
visit
最低周值
最高阈值
剩余内存百分比
资源x临界阈值百分比
CPU当前利用率百分比
访问量阈值
创建聚类半径阈值公式为
radius=ub—X×F忑u万b i-l蕊b (1 X可取值为memory、cpu、visit。
算法3局部挖掘算法
对局部数据进行数据分析,生成局部数据模型。
假设云计算平台即“云”里有P 个服务器节点, 用以表示,其中i取值为1,2,…,P。
用户即“端” 访问某个网站用X“’表示,其中i取值为1,2,…,P。
则X=X‘1’A x‘2’^…^x‘P’是整个数据集合,其中x“’是x 的子集,i取值为l,2,…,P,表示数据在服务器节点M上的子集。
目标是使用算法将每个数据集合x“’(i=l,2,…,P在云计算平台的一个备份中划分成K个簇p”,与集合x 的全局聚类保持一致哺]。
“云”里有M个备份供“端”就近访问, 则有K=x∥U x;纠u…u墨n,其中i取值为l, 2,…,P√取值为1,2,…,K。
假设m=(X。
l,x柁,…,X。
和rt=(Xnl,X砬, …,X。
是数据集合中的2个对象,每个对象都有P 个属性,那么它们之间的距离为
d(m,疗=
 ̄/k1一%I 2+l龙砣一茗J122+…+1名坤一戈印I 2 (2
万方数据
第5期王小妮等:基于云计算的分布式数据挖掘平台架构
算法4全局挖掘算法
组合不同数据站点上的局部数据模型,最终得到全局数据模型,须考虑时间复杂度和通信复杂度。
每台CPU均有通信链路与其他CPU通信,通信操作可以与聚类本身的执行重叠进行,这种系统的总运行时间为
~广N
R=E’r廷11x‘^+;寿∑^(r一^ (3 ‘ …t o J
其中,E为有效计算的执行时间;c为处理机间的通信等辅助开销时间:Ⅳ为CPU 数;r为聚类中心点总数;,为分配给其他CPU的聚类中心点数;K为将“个聚类中心点分配给第K台CPU。
式(3可以将全局挖掘算法分为2种:一种是当通信耗时大,局部聚类相似点多时,可在局部合并多个相似服务器聚类中心,先进行计算,然后再将结果传到中央服务器;另外一种是如果局部聚类相似点少,计算大于通信时间,则直接将各聚类中心点传送到中央服务器,然后在中央服务器中进行全局聚类。
3.2算法描述
输入:用户端及访问网站IP地址。
输出:全局k个簇的质心。
步骤:
①读取用户访问网址,解析DNS,找到云里最近服务器。
②如果为第1次访问该网站,则从该网站读取网页内容,并同时备份到云里其他主要城市服务器中;如果不是第1次访问,则直接在服务器端将数据返回给用户。
③在每个云服务器中随机选取K个对象作为初始聚类中心开始局部挖掘。
新到的数据流点与中心点的距离小于阈值范围,则将该数据并人原聚类, 如果大于阈值范围,则生成新聚类中心点。
④计算该服务器CPU、内存资源利用率及访问量。
如果访问量过大,大于最高门槛,这个服务器节点将迁移它的数据到合适的邻居服务器节点那里, 进行步骤③。
⑤将步骤③局部挖掘结果考虑时间复杂度和通信复杂度汇总到中央服务器,进行全局挖掘,输出 K个簇的质心。
3.3实验结果
实验结果显示,基于分布式数据挖掘算法的云计算平台可以有效地对服务器上的服务进行有效监控,第1时间发现问题。
图5所示为Nagios调度频
率问题,13170924在近2rain内发起了118次请求后续几分钟都没有请求。
图5N呷惦调度频率问题
通过挖掘异常数据,进行有效报警,在2min内发起请求超过100次调度频率的点将发送短信报警信号,如图6所示。
L-L—●—¨H 24n 8
罔6异常报警硅示
基于云计算的分布式数据挖掘平台将会为用户带来如下好处:
1零安装。
方便用户使用。
用户无需安装任何软、硬件,只需通过网络配置接入系统网址,即可享受新技术带来的便利。
2零中断。
为用户提供持续服务。
用户不用担心出现令人烦扰的宕机问题。
基于云计算体系. 服务器集群可提供高可靠性。
3零管理。
为用户降低管理成本。
用户无需投入人员管理、设备管理成本。
4零消耗。
为用户节约消耗成本。
用户无需担心由于硬件投入而产生的系统消耗、成本消耗、电力消耗以及设备本身的折旧消耗,这一切均由云平台承担。
5零维护。
为用户节约维护成本。
新平台系统基于云计算体系,用户无需象购买传统产品那样, 专门进行升级和系统维护,该系统实时在线。
永远保持最新版本和最佳的防护能力。
6零浪费。
为用户节约预算成本。
新系统可提供按需服务、随时扩展、按量付费的先进云服务模式,用户可以根据业务来选用相应的使用方式,也可
万方数据
北京信息科技大学学报第26卷以随时扩充使用方式,节约网站用户的预算。
4机遇与挑战[J].中国管理信息化,2011,14(9):69—7lr●L结束语分布式数据挖掘平台的优势正是云计算的本21J蔡键,王树梅.基于Google的云计算实例分析[J].电脑知识与技术,2009,5(25):7093—7095质。
当然,如果只有1个网站用户采用了云计算,那么由于无法发挥规模效益,不但费用无法承担,云计算的各项灵活性功能也没有办法获得。
因此,云计算只有在为大规模用户提供服务时,才能够把它的各项优势充分发挥出来,而互联网上数量众多的网rL41JrL31J陈磊,王鹏,董静宜,等.基于云计算架构的分布式数据挖掘研究[J].成都信息工程学院学报,2010,25(6):577—579InmonWH.B
uildingthedatawarehouse[M].站会是最先享受到云计算服务的一个领域。
本文主要对基于云计算的分布式数据挖掘平台架构进行了研究,并在此基础上设计了基于云计算的分布式数据挖掘算法,并在预警方面做了测试。
下一步需完rL51JAmerica:Wiley,2005GaberMM,YuPS.Aframeworkforawareresource-knowledgeapproachdiscoveryindatawithitsstreams:Aholisticapplication[C]∥on成的工作是从云平台实时读取用户访问网站日志记录,用CDKmeans算法挖掘用户动态和网站访问信息,比较CDKmeans算法与其他算法的优缺点。
ProceedingsoftheACMsymposiumAppliedcomputing.Dijon,France:ACM649.—656rL61JPress,2006:参考文献:[1]王小妮.现代电子商务给企业信息管理带来的梁建武,田野.一种分布式的K—means聚类算法[J].现代电子技术,2010(10):ll一14(上接第18页)[2]DerekPuccio,DonaldCMalocha,Nancyon[6]杨虹,黄文奇,卢贵武,等.Sr3NbGa,Si:O¨和Sr,TaGa,Si:O,。
压电晶体的声表面波特性研究[J].人工晶体学报,2011,40(2):392—395.Saldanha,eta1.SAWlangasitestructuredTransactionsFrequencyonparametersY—cutmaterials[c]//IEEEUltrasonics,Ferroelectrics,and[7]CampbellestimatingJJ,JonesWR.AcutsmethodforControl,2007,54(9):1873—1881optimalcrystalandpropagation[3]ChillawavesE,KunzeR,WeihnachtM,etal,AcousticmeasurementsondirectionsforexcitationofpiezoelectricsurfacewaveSNGScrystalsand[
c]//UltrasonicsSymposiumdeterminationofmaterialconstants[C]//IEEEProceedings,1968,15(4):209—217Ultrasonicssymposium,2003,1:92—95[8]吉小军,韩韬,施文康,等,LGS压电晶体及其声表面波特性的理论分析[J].压电与声光,2006,26(2):135—138of[4]BungoA,JingChun-yun,YamaguchiK,eta1.AnalysisExperimentandTheoreticalSAWPropertiesoftheLangasiteSubstratewithEuler[9]NaumenkoN,SolieforSAWL.OptimalCutsofLangasiteSymposiumAngle(00,140。
,p)[C]//IEEE[5]NicolayP,OElmazria,SarryMethodtoatUltrasonicsDevices[C]//UltrasonicssymposiumProceedings,1999,1:231—234Proceedings,2001,48(2):530—537F,eta1.NewCharacterizeVeryHigh[10]IlyaevAB,UmarovBS,ShabanovaLA,etal,dependenceofelectromechanicalStatMeasurementPiezoelectricTemperatureTemperatureSAWSubstratespropertiesofLGScrystals[J].PhysSol(a),[c]//IEEEUltrasonics1986,98:K109一K114SymposiumProceedings,2008,1877—1880万方数据。