3.MapReduce命令汇总

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

MapReduce命令汇总

1.手动代码调整程序中Map处理文件的大小,可增大处理的Map数量

Configuration conf = new Configuration();

conf.setLong(“mapred.max.split.size”, 20*1024*1024)

2.在运行MapReduce任务的时候,出现如下错误:

Error: org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError: error in shuffle in fetcher#1

at org.apache.hadoop.mapreduce.task.reduce.Shuffle.run(Shuffle.java:134)

at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:376)

at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:167)

at java.security.AccessController.doPrivileged(Native Method)

at javax.security.auth.Subject.doAs(Subject.java:396)

at erGroupInformation.doAs(UserGroupInformation.java:1556) at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:162) Caused by: ng.OutOfMemoryError: Java heap space

at org.apache.hadoop.io.BoundedByteArrayOutputStream.(BoundedByteArrayOutputStre am.java:56)

at org.apache.hadoop.io.BoundedByteArrayOutputStream.(BoundedByteArrayOutputStre am.java:46)

at org.apache.hadoop.mapreduce.task.reduce.InMemoryMapOutput.(InMemoryMapOutp ut.java:63)

at org.apache.hadoop.mapreduce.task.reduce.MergeManagerImpl.unconditionalReserve(Merge ManagerImpl.java:297)

at org.apache.hadoop.mapreduce.task.reduce.MergeManagerImpl.reserve(MergeManagerImpl.j ava:287)

at org.apache.hadoop.mapreduce.task.reduce.Fetcher.copyMapOutput(Fetcher.java:411) at org.apache.hadoop.mapreduce.task.reduce.Fetcher.copyFromHost(Fetcher.java:341)

at org.apache.hadoop.mapreduce.task.reduce.Fetcher.run(Fetcher.java:165) 解决方案:

根据《Hadoop:The Definitive Guide 4th Edition》所述(P203-219),map任务和reduce 任务之间要经过一个shuffle过程,该过程复制map任务的输出作为reduce任务的输入

具体的来说,shuffle过程的输入是:map任务的输出文件,它的输出接收者是:运行reduce 任务的机子上的内存buffer,并且shuffle过程以并行方式运行

参数mapreduce.reduce.shuffle.input.buffer.percent控制运行reduce任务的机子

上多少比例的内存用作上述buffer(默认值为0.70),参数mapreduce.reduce.shuffle.parallelcopies控制shuffle过程的并行度(默认值为5)

那么"mapreduce.reduce.shuffle.input.buffer.percent" * "mapreduce.reduce.shuffle.parallelcopies" 必须小于等于1,否则就会出现如上错误

因此,我将mapreduce.reduce.shuffle.input.buffer.percent设置成值为0.1,就可以正常运行了(设置成0.2,还是会抛同样的错)

另外,可以发现如果使用两个参数的默认值,那么两者乘积为3.5,大大大于1了,为什么没有经常抛出以上的错误呢?

1)首先,把默认值设为比较大,主要是基于性能考虑,将它们设为比较大,可以大大加快从map复制数据的速度

2)其次,要抛出如上异常,还需满足另外一个条件,就是map任务的数据一下子准备好了等待shuffle去复制,在这种情况下,就会导致shuffle过程的“线程数量”和“内存buffer使用量”都是满负荷的值,自然就造成了内存不足的错误;而如果map任务的数据是断断续续完成的,那么没有一个时刻shuffle过程的“线程数量”和“内存buffer使用量”是满负荷值的,自然也就不会抛出如上错误

另外,如果在设置以上参数后,还是出现错误,那么有可能是运行Reduce任务的进程的内存总量不足,可以通过mapred.child.Java.opts参数来调节,比如设置mapred.child.java.opts=-Xmx2024m

相关文档
最新文档