mr工作原理和执行流程

合集下载

mr工作原理和执行流程
MR（MapReduce）是一种分布式计算模型，常用于处理大规模数据集。

它由谷歌公司提出，旨在处理海量数据的计算问题。

MR的工作原理和执
行流程可以总结为以下几个步骤。

1.划分数据
在MR中，数据集被划分为多个数据块，每个数据块是一个键值对的
集合。

通常情况下，每个键值对都会有一个唯一的键，用于后续的分布式
计算。

2. 映射阶段（Map）
在映射阶段中，每个数据块被输入到一个映射函数中，这个映射函数
由用户定义。

映射函数将每个输入的键值对转化为一组中间键值对。

这组
中间键值对也是一个集合，它们可以是无序的。

3. 排序阶段（Shuffle and Sort）
在排序阶段中，MR框架会对中间键值对进行排序和分组。

具体来说，MR框架会按照键对中间键值对进行排序，并将拥有相同键的中间键值对
分组在一起。

这个过程称为Shuffle and Sort，旨在将相同键的中间键
值对发送到同一个Reducer中。

4. 减少阶段（Reduce）
在减少阶段中，MR框架会将拥有相同键的中间键值对发送到同一个Reducer中。

Reducer是用户定义的减少函数，它将一组具有相同键的中
间键值对作为输入，并进行一些计算操作，最终输出一个或多个最终键值对。

5.合并结果
最后，在合并结果阶段中，MR框架会将所有Reducer的输出结果进
行合并，并将最终结果返回给用户。

总体来说，MR的工作原理和执行流程可以概括为：划分数据、映射、排序、减少和合并结果。

这个过程可以看作是一个分而治之的思想，通过
将大规模数据集划分为多个小块，并在每个小块上执行映射和减少操作，
以达到加速处理大规模数据集的目的。

值得一提的是，MR框架可以自动
处理容错和并行性，提供了一个简单而高效的处理大规模数据的解决方案。

总结起来，通过映射和减少的分布式计算模型，MR可以高效地处理
大规模数据集。

它的工作原理和执行流程使得用户能够简单地定义映射和
减少函数，并在大规模数据集上进行分布式计算，从而解决了大规模数据
处理的挑战。