基于MapReduce数字图像处理研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于MapReduce 数字图像处理研究
田进华,张韧志
(黄淮学院河南驻马店463000)
摘要:随着海量图像数据的增加,使得需要处理的数据规模越来越大,为了解决在处理海量数据信息时所面临的存取容量和处理速度的问题,在深入研究MapReduce 大规模数据集分布式计算模型的基础之上,本文设计了基于
MapReduce 实现对数字图像并行化处理。实验结果表明:运行在Hadoop 集群上的基于MapReduce 并行化算法具有数
据节点规模易扩展、处理速度快、安全性高、容易实现等特点,能够较好地满足海量数据图像的处理的要求。关键词:Hadoop 平台;海量数据;MapReduce ;图像处理;并行处理中图分类号:TN391.41
文献标识码:A
文章编号:1674-6236(2014)15-0093-03
Research of digital image processing based on MapReduce
TIAN Jin 鄄hua ,ZHANG Ren 鄄zhi
(Huanghuai University ,Zhumadian 463000,China )
Abstract:With the increase of mass image data ,makes the need to deal with the data size is bigger and bigger ,in order to solve the facing access when dealing with huge amounts of data information capacity and processing speed ,the further study of graphs large 鄄scale distributed computing model based on the data set ,in this paper ,based on graphs design for digital image parallel processing.Experimental results show that run on Hadoop cluster graphs based on parallel algorithm is data node size easy extension ,fast processing speed ,high security ,easy to implement ,can well meet the requirements of mass data processing of the image.
Key words:Hadoop plateform ;mass data ;MapReduce ;image processing ;parallel processing
收稿日期:2014-04-30
稿件编号:201404271
基金项目:河南省教育厅科学技术研究重点项目(13A520786)
作者简介:田进华(1982—),男,河南泌阳人,硕士,实验师。研究方向:计算机应用。
以互联网为计算平台的云计算,将会涉及非常多的海量数据处理任务[1],海量数据处理是指对大规模数据的计算和分析,通常数据规模可以达到TB 甚至PB 级别。当今世界最流行的海量数据处理可以说是MapReduce 编程模式。
MapReduce 分布式编程模型允许用户在不了解分布式系统
底层实现细节的情况下开发并行应用程序。用户可以利用
Hadoop 轻松地组织计算机资源,进而搭建自己的分布式计算
云平台,并且可以充分利用集群的计算和存储能力,完成海量数据的处理。
1MapReduce 计算模型
Hadoop 是一个开源分布式计算平台。以分布式文件系统HDFS 和MapReduce 为核心的分布式计算和分布式存储的编
程环境[2]。MapReduce 是用于大规模数据集分布式的计算模型,实现一个MapReduce 应用,首先,通过Map 程序将数据切割成小块,然后,分配给大量服务器处理,最后,通过
Reduce 程序将处理后的结果汇整输出给客户端。MapReduce
的整个架构是由Map 和Reduce 函数组成,当程序输入一大组Key/Value 键值对时,Map 负责根据输入的Key/Value (键值)对,生成中间结果,这生成中间结果同样采用Key/Value (键值)对的形式。开发者只需要实现Map 和Reduce 函数的逻辑,然后提交给MapReduce 运行环境,计算任务便会在大量计算机组成的集群上被自动、并行地调度执行。MapReduce 的运行环境是有两个不同类型的节点组成:Master 和Worker 。
Worker 负责数据处理,Master 主要负责任务分配和节点之间
数据共享。需要实现或指定以下编程接口:
Map 函数:接收输入的键值对
间的键值对
Reduce 函数:接收键值对集合
算得到新键值对
Combiner 函数:它是对Map 函数输出的中间数据在本地
执行归并,将处理结果再传输给Reduce 节点。Combiner 可以降低Map 任务节点和Reduce 任务节点之间的通信代价。
InputFormat ,OutputFormat :InputFormat 支持Hadoop 作
业输入数据键值对的转换;OutputFormat 表示Hadoop 作业计算结果存储在HDFS 中的格式。
Partitioner 函数:用于对Map 函数输出的中间结果进行
划分,Map 任务点根据所提供的Partition 函数,将数据结果划分给相应Reduce 任务节点。
电子设计工程
Electronic Design Engineering
第22卷Vol.22第15期No.152014年8月Aug.2014
-93-