基于高性能云的分布式数据并行处理机制

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

2 计算云结构设计
此计算云结构基于如下设想 : 一个计算云数据集是由一个或多个物理文件组成的 ; 用户定义函数在计算云内执行计算 ; 计算云运算器输入一个计算云数据流 , 计算产生另一个数据流作为输出 ; 计算云数据流能分解为更多的数据片以供计算云服务器处理, 这个过程称为计算云处理引擎 ( 缩写为 CCPE )。计算云数据片可以是一个数据记录及其集合, 也可是一个完整的文件。当一个计算云函数处理一个数图 1 存储云结构设计示意图据流时, 所得结果能返回到存储云起始节点 , 也可写
3 实验结果及分析
在计算机集群和网格环境下 , 数据并行算法编程的最通用方法是使用消息传递机制 , 或使用 G rid L ib raries 和 Serv ices , 比如用 G lobus U rl Copy 来分发、收集数据和编程 , G lo bus Job Run 运行程序。在 GFS 和 HDFS 存储云上执行计算的最通用的方法是使用 M apReduce , 其首先使用通用的映射操作在多节点并行地提取相关数据, 然后传递这些数据到其它指定节点, 最后使用还原操作在多节点处理这些数据 , 产生结果数据集。而本文所描述的计算云容许用户任意定义操作取代映射和还原操作, 且和存储云一样也使用专用的 UDT 协议, 因此计算云的用户定义函数所指定的任何数据都能在高性能广域网络上有效传输。该计算云测试环境使用了图 2 计算云模式结构图 benchm ark , 并和 H adoop
An distribution data parallelis m w ith high performance cloud
GUI B ing x iang, HE J ian ( Departm ent of Com puter and Inform ation Engineerin g , W uhan P olytechn ic U niversity , W uhan 430023, Ch in a) Ab strac: t T his paper presents an d istributed da ta parallelism w ith h ig h perfo r m ance c lo ud that support si m p lified data paralle l applicatio ns , and the desig n of this cloud causes the data to be processed frequently in one place w ith out mov ing them. Th is paper prescrib es th e structu re design o f th is cloud briefly, in cluding the re lated storage cloud and com pute cloud ; T he experi m ent results show that th is data para llelism can be used for large distributed data sets over c lu sters connected w ith h ig h perfo r m ance w id e area netw o rks . T his dada para lle lism is about tw ice as fast as th e others ( such asH adoop) . Key wo rs : h igh perfor m ance c lo ud ; sto rage c lo ud ; com pute cloud; distrib uted com pute ; parallelism 目前应用于计算机集群、分布式计算机集群和网格的数据并行处理系统都是基于 CPU 资源不足而共享的假设之上。当获得 CPU, 数据就移动过来 , 计算开始 , 然后返回计算结果。这种方式在实际应用时 , 大部分时间被消耗在数据传输过程中了。而基于云计算的分布式高性能数据并行处理机制 , 它永久性存储数据 , 尽可能在同一个地点处理数据 , 数据在本地等待计算任务或查询 , 大大减少了数据传输时间开销。目前关于云计算已有了一些应用实例 : 如
1 存储云结构设计
存储云是为计算云提供持久的数据存储服务、并为计算云的运算管理数据, 它本身不是文件系统 , 但必须依靠本地文件系统来提供服务。为了数据文档的安全, 存储云在必要时能随时随地复制数据文件并每天监控其数量, 这样就确保了整个文件系统数据的一致性。存储云结构设计如图 1 所示。主管服务器 ( m aster server) 维持系统内的元数据和文件索引、支持文件系统查询、提供目录服务、控制所有从属节点的运行、响应用户的请求等。主服务器还应用 SSL 连接与安全服务器通讯, 从属节点、客户端和用户提供验证功能 ; 安全服务器 ( Security server) 维护用户账号、密码和数据文件存取等信息, 它也维护已授权的从属节点 IP地址列表, 使非法的计算机不能接入系统, 防止扰乱系统正常运行。为了提供更好的可靠性, 容许使用多个主服务器连接同一个安全服务器 ; 从属节点 ( S laves) 是指那些存储数据文件、基于
基于高性能云的分布式数据并行处理机制
桂兵祥 , 何健
( 武汉工业学院计算机与信息工程系 , 湖北武汉 430023)
பைடு நூலகம்
摘
要: 描述了一个基于高性能云的分布式数据并行处理机制, 该机制简化了数据并行处理
操作 , 且能实现数据尽可能在同一个地点处理而无需移动; 重点对相关的存储云和计算云基本的框架结构设计思想进行了简要的介绍 ; 实验结果表明, 该数据并行处理机制能用于高性能广域网络连接的计算机集群所产生的大型分布式数据集的数据并行处理, 实验数据显示, 其性能较其它系统 (如 H adoop)有显著的提高。关键词: 高性能云 ; 存储云 ; 计算云; 分布式计算 ; 并行处理机制中图分类号: TP 393 . 02 文献标识码: A
第 29 卷第 1期 2010 年 3 月
武汉工业学院学报 Journa l o f W uhan P olytechn ic U n iversity
V o l 29N o 1 M ar 2010
文章编号: 1009 4881( 2010) 01 0060 04
j issn . 1009 4881. 2010. 01. 017 DO I : 10 . 3969 / .
[ 1]
1期
桂兵祥 , 何健 : 基于高性能云的分布式数据并行处理机制
61
式高性能数据并行处理机制是基于高性能数据云的设计: 存储云设计充分利用高性能广域网络, 为大型数据集提供永久性存储服务 , 其通过分布式索引文件对分散的数据文件及其部分实施管理, 且通过复制数据以确保数据的长久性 , 为并行计算机制创造条件; 计算云设计用来执行用户所定义的并行计算函数, 用数据流的处理形式对存储云所管理的数据进行处理。这就意味着用户所定义的计算函数能应用于任何存储云所管理的数据集内任何数据记录 , 且数据集的每个部分都能独立操作, 从而提供了一个自然的并行机制。这个高性能数据并行处理系统设计实现了数据尽可能在同一个地点被频繁处理而无需移动。下面对相关的存储云和计算云的结构设计思想做简要介绍。
62
武
汉
工
业
学
院
学
报
2010 年
入本地节点或移动到其它节点 , 取决于如何定义数据流的输出。计算云结构设计如图 2 所示。 CCPE 是计算云最主要的服务, 它由一个计算云服务器发起, 以响应来自计算云客户端请求。每个 CCPE 以用户所定义的函数为基础, 此函数称为计算云运算器 , 作为计算云运算器动态库存储在服务器的本地磁盘上 , 由存储云服务器对其管理。因考虑安全因素, 加载这些库文件到存储云服务器操作受到一定限制。只有当计算云客户端程序写入特定的存储云服务器或服务器拥有者自愿下载文件 , 库函数文件才能驻留存储云服务器。
存储云客户端的请求而处理数据的节点 , 它们通常运行在分布式数据中心的计算机平台上。这些从属节点仅仅接收来自主服务器的指令 , 所有客户端从属节点和从属节点自身间的数据传输必须由主节点协调进行。此前 , 有关存储云的研究工作都是基于分布式计算机集群之间的带宽相对较小的假设。而在此描述的存储云是为高性能广域网络 ( 如 10Gb / s) 而设 [ 2] 计的 , 并使用了专用的 UDT 协议 , 以便能充分利用广域高性能网络 ( 10Gb / s), 同时也支持不同的路由和网络协议。因其将路由、传输与接口进行分层栈式结构设计 , 且相互之间有定义良好的 AP I , 这样存储云使用其它的路由或网络协议就相对直接些。存储云还能高速缓存数据连接, 避免了同一对节点间频繁的数据传输需要建立多次连接。其安全机制是通过存取控制列表 ( ACL ) 实现的。当数据读取操作处于开放状态时, 数据写入存储云系统操作将由 ACL 控制 , 为了给那些特定的服务器加载数据, 客户端的 IP 地址必须出现在服务器的 ACL 内。存储云中 , 数据的组织和处理方式如下 : 大型数据集按存放记录被组织分为多个文件 , 为了随机存取数据文件中的某一记录, 存储云的每个数据文件附有一个索引文件 , 二者同时存在于相同的节点 ; 当存储云复制数据文件时 , 索引文件同时被复制。索引包含数据文件的每个记录的起始地址和末端地址, 还有偏移量和尺寸大小等。对于没有索引的数据文件, 计算云只能以文件为单位对其进行处理 , 用户必须编写特定函数以解析文件、提取数据。该存储云版本支持大型分布式数据集 , 它们是通过高性能广域网络连接起来的、管理松散的分布式计算机集群系统。此外还使用了 P2P 路由协议 ( the Chord P rotoco l) , 以便网络节点能自如地加入系统或从系统撤出。
数据流分成大小适合 CCPE 处理的数据片, 然后才能将这些数据片尽可能地分配给同一台机器上的 CCPE。注意, 除非 CCPE 出于空闲状态, 否则来自相同文件的数据片不能同时处理。计算云设计与存储云一起使用, 使用数据流编程模型, 使某些专用的但频繁发生的分布式计算操作执行起来十分简单。假设计算云所处理的大数据集被分解为多个文件。并行机制以如下两种方法执行: ! 单个文件能并行处理; ∀ 存储云复制文件且能并行处理。计算云的重要好处是数据无需频繁移动, 能在同一地方得以处理。
收稿日期 : 2009 05 14 . 修回日期 : 2009 11 12 . 作者简介 : 桂兵祥 ( 1969 ) , 男, 副教授 , 硕士 , E m ai: l bgxh om e @ 163. com.
Goog le F ile Syster m ( GFS ), Am azon s S3 存储云, Si m p leDB 数据云 , EC2 计算云和开源 H adoop 系统等。 M apReduce 和 H adoop 及其基本的文件系统 GFS 和 HDFS 是专门为具有数据中心的计算机集群系统而设计的 , 它们使用集群信息将数据文件以数据块的形式存放 , 是具有中央控制主机节点的耦合度紧密系统 , 但这种方案对耦合松散的分布式环境使用效果并不好。而存储云正好弥补上述不足, 且以文件为单位处理数据, 粒度更大。与传统的数据并行处理机制完全不同 , 该分布