基于索引偏移的MapReduce聚类负载均衡策略
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于索引偏移的MapReduce聚类负载均衡策略
周华平;刘光宗;张贝贝
【期刊名称】《计算机科学》
【年(卷),期】2018(045)005
【摘要】MapReduce作为一种分布式编程模型,被广泛应用于大规模和高维度数据集的处理中.其采用原始Hash函数划分数据,当数据分布不均匀时,常会出现数据倾斜的问题.基于MapReduce的聚类算法,需要多次迭代且不清楚各阶段Reduce 的输入数据分布,因此现有的解决数据倾斜的方法并不适用.为解决数据划分的不均衡问题,提出一种当存在数据倾斜时更改剩余分区索引的策略.该方法在Map运行的过程中统计将要分给各reducer的数据量,由JobTrackcr监控全局的分区信息并根据数据倾斜模型动态修改原分区函数;在接下来的分区过程中,Partitioner把即将导致倾斜的分区索引到其余负载较轻的reducer上,使各节点的负载达到均衡.基于Zipf分布数据集和真实数据集,将所提算法与现有的解决数据倾斜的方法进行对比,结果证明,所提策略解决了MapReduce聚类中的数据倾斜问题,且在稳定性与执行时间上优于Hash和基于采样的动态分区法.%MapReduce has been widely used in large-scale and high-dimension datasets as a kind of distributed programming model.Original Hash partition function in MapReduce often occurs data skew when data distribution is not uniform.In the clustering algorithm based on MapReduce,existing solutions for data skew are not applicable because the input data distribution of Reduce is unclear at each stage of multiple iteration.To solve the imbalance problem of data partitioning,this paper proposed a strategy to change the remaining
partition index when data is tilted.In Map phase,the amount of data which will be distributed to each reducer is counted,then the global partition information is monitored and the original partition function is dynamically modified according to the data skew model by JobTrackcr,so the Partitioner can change the index of these partitions which will cause data skew to the other reducer that has less load in the next partitioning process,and eventually balance the load of each node.Finally,this method was compared with existing methods on both synthetic datasets and real datasets.The experimental results show this strategy can solve data skew on MapReduce clustering with better stability and efficiency than Hash method and dynamic partitioning method based on sampling.
【总页数】7页(P303-309)
【作者】周华平;刘光宗;张贝贝
【作者单位】安徽理工大学计算机科学与工程学院安徽淮南232000;安徽理工大学计算机科学与工程学院安徽淮南232000;安徽理工大学计算机科学与工程学院安徽淮南232000
【正文语种】中文
【中图分类】TP311
【相关文献】
1.基于反馈调度的MapReduce负载均衡分区算法研究 [J], 刘寒梅;韩宏莹
2.基于压力反馈的MapReduce负载均衡策略 [J], 李航晨;秦小麟;沈尧
3.数据本地性感知的MapReduce负载均衡策略 [J], 李航晨;秦小麟;沈尧
4.一种周期性MapReduce作业的负载均衡策略 [J], 傅杰;都志辉
5.基于负载均衡的MapReduce后备任务上限自适应算法 [J], 李燕歌;张治斌;王娜
因版权原因,仅展示原文概要,查看原文内容请购买。