基于高性能云的分布式数据并行处理机制

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2 计算云结构设计
此计算云结构基于如下设想 : 一个计算云数据 集是由一个或多个物理文件组成的 ; 用户定义函数 在计算云内执行计算 ; 计算云运算器输入一个计算 云数据流 , 计算产生另一个数据流作为输出 ; 计算云 数据流能分解为更多的数据片以供计算云服务器处 理, 这个过程称为计算云处理引擎 ( 缩写为 CCPE )。 计算云数据片可以是一个数据记录及其集合, 也可 是一个完整的文件。当一个计算云函数处理一个数 图 1 存储云结构设计示意图 据流时, 所得结果能返回到存储云起始节点 , 也可写
3 实验结果及分析
在计算机集群和网格环境下 , 数据并行算法编 程的最通用方法是使用消息传递机制 , 或使用 G rid L ib raries 和 Serv ices , 比 如用 G lobus U rl Copy 来 分 发、 收集数据和编程 , G lo bus Job Run 运行程序。在 GFS 和 HDFS 存储云上执行计算的最通用的方法是 使用 M apReduce , 其首先使用通用的映射操作在多 节点并行地提取相关数据, 然后传递这些数据到其 它指定节点, 最后使用还原操作在多节点处理这些 数据 , 产生结果数据集。而本文所描述的计算云容 许用户任意定义操作取代映射和还原操作, 且和存 储云一样也使用专用的 UDT 协议, 因此计算云的用 户定义函数所指定的任何数据都能在高性能广域网 络上有效传输。 该计 算 云 测 试 环 境 使 用 了 图 2 计算云模式结构图 benchm ark , 并 和 H adoop
An distribution data parallelis m w ith high performance cloud
GUI B ing x iang, HE J ian ( Departm ent of Com puter and Inform ation Engineerin g , W uhan P olytechn ic U niversity , W uhan 430023, Ch in a) Ab strac: t T his paper presents an d istributed da ta parallelism w ith h ig h perfo r m ance c lo ud that support si m p lified data paralle l applicatio ns , and the desig n of this cloud causes the data to be processed frequently in one place w ith out mov ing them. Th is paper prescrib es th e structu re design o f th is cloud briefly, in cluding the re lated storage cloud and com pute cloud ; T he experi m ent results show that th is data para llelism can be used for large distributed data sets over c lu sters connected w ith h ig h perfo r m ance w id e area netw o rks . T his dada para lle lism is about tw ice as fast as th e others ( such asH adoop) . Key wo rs : h igh perfor m ance c lo ud ; sto rage c lo ud ; com pute cloud; distrib uted com pute ; parallelism 目前应用于计算机集群、 分布式计算机集群和 网格的数据并行处理系统都是基于 CPU 资源不足 而共享 的假设之上。当获得 CPU, 数据就移动过 来 , 计算开始 , 然后返回计算结果。这种方式在实际 应用时 , 大部分时间被消耗在数据传输过程中了。 而基于云计算的分布式高性能数据并行处理机 制 , 它永久性存储数据 , 尽可能在同一个地点处理数 据 , 数据在本地等待计算任务或查询 , 大大减少了数 据传输时间开销。 目前关 于 云 计 算 已 有 了 一 些 应 用 实 例 : 如
1 存储云结构设计
存储云是为计算云提供持久的数据存储服务、 并为计算云的运算管理数据, 它本身不是文件系统 , 但必须依靠本地文件系统来提供服务。为了数据文 档的安全, 存储云在必要时能随时随地复制数据文 件并每天监控其数量, 这样就确保了整个文件系统 数据的一致性。 存储云 结 构 设计 如 图 1 所 示。 主 管 服务 器 ( m aster server) 维持系统内的元数据和文件索引、 支 持文件系统查询、 提供目录服务、 控制所有从属节点 的运行、 响应用户的请求等。主服务器还应用 SSL 连接与安全服务器通讯, 从属节点、 客户端和用户提 供验证功能 ; 安全服务器 ( Security server) 维护用户 账号、 密码和数据文件存取等信息, 它也维护已授权 的从属节点 IP地址列表, 使非法的计算机不能接入 系统, 防止扰乱系统正常运行。为了提供更好的可 靠性, 容许使用多个主服务器连接同一个安全服务 器 ; 从属节点 ( S laves) 是指那些存储数据文件、 基于
基于高性能云的分布式数据并行处理机制
桂兵祥 , 何 健
( 武汉工业学院 计算机与信息工程系 , 湖北 武汉 430023)
பைடு நூலகம்

要: 描述了一个基于高性能云的分布式数据并行处理机制, 该机制简化了数据并行处理
操作 , 且能实现数据尽可能在同一个地点处理而无需移动; 重点对相关的存储云和计算云基本 的框架结构设计思想进行了简要的介绍 ; 实验结果表明, 该数据并行处理机制能用于高性能广 域网络连接的计算机集群所产生的大型分布式数据集的数据并行处理, 实验数据显示, 其性能 较其它系统 (如 H adoop)有显著的提高。 关键词: 高性能云 ; 存储云 ; 计算云; 分布式计算 ; 并行处理机制 中图分类号: TP 393 . 02 文献标识码: A
第 29 卷第 1期 2010 年 3 月
武 汉 工 业 学 院 学 报 Journa l o f W uhan P olytechn ic U n iversity
V o l 29N o 1 M ar 2010
文章编号: 1009 4881( 2010) 01 0060 04
j issn . 1009 4881. 2010. 01. 017 DO I : 10 . 3969 / .
[ 1]
1期
桂兵祥 , 何健 : 基于高性能云的分布式数据并行处理机制
61
式高性能数据并行处理机制是基于高性能数据云的 设计: 存储云设计充分利用高性能广域网络, 为大型 数据集提供永久性存储服务 , 其通过分布式索引文 件对分散的数据文件及其部分实施管理, 且通过复 制数据以确保数据的长久性 , 为并行计算机制创造 条件; 计算云设计用来执行用户所定义的并行计算 函数, 用数据流的处理形式对存储云所管理的数据 进行处理。这就意味着用户所定义的计算函数能应 用于任何存储云所管理的数据集内任何数据记录 , 且数据集的每个部分都能独立操作, 从而提供了一 个自然的并行机制。这个高性能数据并行处理系统 设计实现了数据尽可能在同一个地点被频繁处理而 无需移动。下面对相关的存储云和计算云的结构设 计思想做简要介绍。
62








2010 年
入本地节点或移动到其它节点 , 取决于如何定义数 据流的输出。 计算云结构设计如图 2 所示。 CCPE 是计算云 最主要的服务, 它由一个计算云服务器发起, 以响应 来自计算云客户端请求。每个 CCPE 以用户所定义 的函数为基础, 此函数称为计算云运算器 , 作为计算 云运算器动态库存储在服务器的本地磁盘上 , 由存 储云服务器对其管理。因考虑安全因素, 加载这些 库文件到存储云服务器操作受到一定限制。只有当 计算云客户端程序写入特定的存储云服务器或服务 器拥有者自愿下载文件 , 库函数文件才能驻留存储 云服务器。
存储云客户端的请求而处理数据的节点 , 它们通常 运行在分布式数据中心的计算机平台上。这些从属 节点仅仅接收来自主服务器的指令 , 所有客户端 从 属节点和从属节点自身间的数据传输必须由主节点 协调进行。 此前 , 有关存储云的研究工作都是基于分布式 计算机集群之间的带宽相对较小的假设。而在此描 述的存储云是为高性能广域网络 ( 如 10Gb / s) 而设 [ 2] 计的 , 并使用了专用的 UDT 协议 , 以便能充分利 用广域高性能网络 ( 10Gb / s), 同时也支持不同的路 由和网络协议。因其将路由、 传输与接口进行分层 栈式结构设计 , 且相互之间有定义良好的 AP I , 这样 存储云使用其它的路由或网络协议就相对直接些。 存储云还能高速缓存数据连接, 避免了同一对 节点间频繁的数据传输需要建立多次连接。其安全 机制是通过存取控制列表 ( ACL ) 实现的。当数据读 取操作处于开放状态时, 数据写入存储云系统操作 将由 ACL 控制 , 为了给那些特 定的服务器加 载数 据, 客户端的 IP 地址必须出现在服务器的 ACL 内。 存储云中 , 数据的组织和处理方式如下 : 大型数 据集按存放记录被组织分为多个文件 , 为了随机存 取数据文件中的某一记录, 存储云的每个数据文件 附有一个索引文件 , 二者同时存在于相同的节点 ; 当 存储云复制数据文件时 , 索引文件同时被复制。索 引包含数据文件的每个记 录的起始地址和 末端地 址, 还有偏移量和尺寸大小等。对于没有索引的数 据文件, 计算云只能以文件为单位对其进行处理 , 用 户必须编写特定函数以解析文件、 提取数据。 该存储云版本支持大型分布式数据集 , 它们是 通过高性能广域网络连接起来的、 管理松散的分布 式计算机集群系 统。此外还使用了 P2P 路 由协议 ( the Chord P rotoco l) , 以便网络节点能自如地加入系 统或从系统撤出。
数据流分成大小适合 CCPE 处理的数据片, 然后才 能将这些数据片尽可能地 分配给同一台机 器上的 CCPE。注意, 除非 CCPE 出于空 闲状态, 否 则来自 相同文件的数据片不能同时处理。 计算云设计与存储云一起使用, 使用数据流编 程模型, 使某些专用的但频繁发生的分布式计算操 作执行起来十分简单。假设计算云所处理的大数据 集被分解为多个文件。并行机制以如下两种方法执 行: ! 单个文件能并行处理; ∀ 存储云复制文件且能 并行处理。计算云的重要好 处是数据无需 频繁移 动, 能在同一地方得以处理。
收稿日期 : 2009 05 14 . 修回日期 : 2009 11 12 . 作者简介 : 桂兵祥 ( 1969 ) , 男, 副教授 , 硕士 , E m ai: l bgxh om e @ 163. com.
Goog le F ile Syster m ( GFS ), Am azon s S3 存 储 云, Si m p leDB 数据云 , EC2 计算云和开源 H adoop 系统 等。 M apReduce 和 H adoop 及 其 基 本 的文 件 系 统 GFS 和 HDFS 是专门为具有数据中心的计算机集群 系统而设计的 , 它们使用集群信息将数据文件以 数据块的形式存放 , 是具有中央控制主机节点的耦 合度紧密系统 , 但这种方案对耦合松散的分布式环 境使用效果并不好。而存储云正好弥补上述不足, 且以文件为单位处理数据, 粒度更大。 与传统的数据并行处理机制完全不同 , 该分布
相关文档
最新文档